rozumienie dokumentów;

Interfejs Gemini API obsługuje dane wejściowe w formacie PDF, w tym długie dokumenty (do 1000 stron). Modele Gemini przetwarzają pliki PDF za pomocą natywnej funkcji widzenia, dzięki czemu są w stanie zrozumieć zarówno zawartość tekstową, jak i obrazową dokumentów. Dzięki natywnemu obsłudze PDF-ów modele Gemini mogą:

  • analizować diagramy, wykresy i tabele w dokumentach;
  • Wyodrębnianie informacji w uporządkowanych formatach wyjściowych
  • odpowiadać na pytania dotyczące treści wizualnych i tekstowych w dokumentach;
  • streszczać dokumenty,
  • Transkrybowanie treści dokumentu (np. do formatu HTML) z zachowaniem układu i formatowania na potrzeby dalszego przetwarzania

W tym samouczku pokazujemy kilka sposobów korzystania z interfejsu Gemini API do przetwarzania dokumentów PDF.

Szczegóły techniczne

Gemini obsługuje maksymalnie 1000 stron dokumentu. Strony dokumentu muszą mieć jeden z tych typów MIME danych tekstowych:

  • PDF – application/pdf
  • JavaScript – application/x-javascript, text/javascript
  • Python – application/x-python, text/x-python
  • TXT – text/plain
  • HTML – text/html
  • CSS – text/css
  • Markdown – text/md
  • CSV – text/csv
  • XML – text/xml
  • RTF – text/rtf

Każda strona dokumentu odpowiada 258 znacnikom.

Chociaż nie ma żadnych konkretnych ograniczeń liczby pikseli w dokumencie poza oknem kontekstowym modelu, większe strony są zmniejszane do maksymalnej rozdzielczości 3072 x 3072 przy zachowaniu oryginalnego współczynnika proporcji, a mniejsze strony są powiększane do 768 x 768 pikseli. Nie ma obniżenia kosztów w przypadku stron o mniejszych rozmiarach (poza przepustowością) ani poprawy wydajności w przypadku stron o wyższej rozdzielczości.

Aby uzyskać najlepsze wyniki:

  • Przed przesłaniem obróć strony w odpowiednią orientację.
  • Unikaj stron z rozmazanymi obrazami.
  • Jeśli używasz pojedynczej strony, umieść prompt tekstowy po tej stronie.

Co dalej?

Więcej informacji znajdziesz w tych materiałach: