הבנת מסמכים

Gemini API תומך בקלט בפורמט PDF, כולל מסמכים ארוכים (עד 1,000 דפים). המודלים של Gemini מעבדים קובצי PDF באמצעות ראייה מקורית, ולכן הם יכולים להבין גם תוכן טקסט וגם תוכן תמונה במסמכים. בעזרת תמיכה מקורית ב-PDF, המודלים של Gemini יכולים:

  • לנתח דיאגרמות, תרשימים וטבלאות במסמכים
  • חילוץ מידע לפורמטים מובְנים של פלט
  • מענה על שאלות לגבי תוכן חזותי וטקסטואלי במסמכים
  • לסכם מסמכים
  • תמלול תוכן של מסמכים (למשל ל-HTML) תוך שמירה על פריסות ועיצובים, לשימוש באפליקציות במורד הזרם

במדריך הזה נסביר כמה דרכים אפשריות לשימוש ב-Gemini API לעיבוד מסמכי PDF.

פרטים טכניים

Gemini תומך ב-1,000 דפי מסמכים לכל היותר. דפי המסמך חייבים להיות באחד מסוגי ה-MIME הבאים של נתוני טקסט:

  • PDF – application/pdf
  • JavaScript – ‏application/x-javascript, ‏text/javascript
  • Python –‏ application/x-python, ‏ text/x-python
  • TXT – text/plain
  • HTML – text/html
  • CSS –‏ text/css
  • Markdown – text/md
  • CSV –‏ text/csv
  • XML – text/xml
  • RTF –‏ text/rtf

כל דף במסמך שווה ל-258 אסימונים.

אין מגבלות ספציפיות למספר הפיקסלים במסמך, מלבד חלון ההקשר של המודל. עם זאת, דפים גדולים יותר מוקטנים לרזולוציה מקסימלית של 3072x3072 תוך שמירה על יחס הגובה-רוחב המקורי שלהם, ודפים קטנים יותר מוגדלים לרזולוציה של 768x768 פיקסלים. אין הפחתת עלות של עמודים בגדלים קטנים יותר, מלבד רוחב הפס, או שיפור בביצועים של עמודים ברזולוציה גבוהה יותר.

לקבלת התוצאות הטובות ביותר:

  • לפני ההעלאה, צריך לסובב את הדפים לכיוון הנכון.
  • כדאי להימנע מדפים מטושטשים.
  • אם משתמשים בדף יחיד, צריך למקם את הנחיית הטקסט אחרי הדף.

המאמרים הבאים

מידע נוסף זמין במקורות המידע הבאים:

  • אסטרטגיות להצגת בקשות להעלאת קבצים: Gemini API תומך בהצגת בקשות להעלאת קבצים עם נתוני טקסט, תמונות, אודיו ווידאו, שנקראות גם בקשות להצגת נתונים במגוון מודלים.
  • הוראות מערכת: הוראות המערכת מאפשרות לכם לקבוע את התנהגות המודל בהתאם לצרכים הספציפיים ולתרחישי השימוש שלכם.