Interfejs Gemini API obsługuje dane wejściowe w formacie PDF, w tym długie dokumenty (do 1000 stron). Modele Gemini przetwarzają pliki PDF za pomocą natywnej funkcji widzenia, dzięki czemu są w stanie zrozumieć zarówno zawartość tekstową, jak i obrazową dokumentów. Dzięki natywnemu obsłudze PDF-ów modele Gemini mogą:
- analizować diagramy, wykresy i tabele w dokumentach;
- Wyodrębnianie informacji w uporządkowanych formatach wyjściowych
- odpowiadać na pytania dotyczące treści wizualnych i tekstowych w dokumentach;
- streszczać dokumenty,
- Transkrybowanie treści dokumentu (np. do formatu HTML) z zachowaniem układu i formatowania na potrzeby dalszego przetwarzania
W tym samouczku pokazujemy kilka sposobów korzystania z interfejsu Gemini API do przetwarzania dokumentów PDF.
Szczegóły techniczne
Gemini obsługuje maksymalnie 1000 stron dokumentu. Strony dokumentu muszą mieć jeden z tych typów MIME danych tekstowych:
- PDF –
application/pdf
- JavaScript –
application/x-javascript
,text/javascript
- Python –
application/x-python
,text/x-python
- TXT –
text/plain
- HTML –
text/html
- CSS –
text/css
- Markdown –
text/md
- CSV –
text/csv
- XML –
text/xml
- RTF –
text/rtf
Każda strona dokumentu odpowiada 258 znacnikom.
Chociaż nie ma żadnych konkretnych ograniczeń liczby pikseli w dokumencie poza oknem kontekstowym modelu, większe strony są zmniejszane do maksymalnej rozdzielczości 3072 x 3072 przy zachowaniu oryginalnego współczynnika proporcji, a mniejsze strony są powiększane do 768 x 768 pikseli. Nie ma obniżenia kosztów w przypadku stron o mniejszych rozmiarach (poza przepustowością) ani poprawy wydajności w przypadku stron o wyższej rozdzielczości.
Aby uzyskać najlepsze wyniki:
- Przed przesłaniem obróć strony w odpowiednią orientację.
- Unikaj stron z rozmazanymi obrazami.
- Jeśli używasz pojedynczej strony, umieść prompt tekstowy po tej stronie.
Co dalej?
Więcej informacji znajdziesz w tych materiałach:
- Strategie wyświetlania promptów dotyczących plików: interfejs Gemini API obsługuje prompty z tekstem, obrazem, dźwiękiem i danymi wideo, które są też nazywane promptami multimodalnymi.
- Instrukcje systemowe: instrukcje systemowe umożliwiają kierowanie działaniem modelu na podstawie konkretnych potrzeb i przypadków użycia.