Gemini API mendukung input PDF, termasuk dokumen panjang (hingga 1.000 halaman). Model Gemini memproses PDF dengan visi native, sehingga dapat memahami konten teks dan gambar di dalam dokumen. Dengan dukungan visi PDF native, model Gemini dapat:
- Menganalisis diagram, diagram, dan tabel di dalam dokumen
- Mengekstrak informasi ke dalam format output terstruktur
- Menjawab pertanyaan tentang konten visual dan teks dalam dokumen
- Meringkas dokumen
- Mentranskripsikan konten dokumen (misalnya ke HTML) dengan mempertahankan tata letak dan pemformatan, untuk digunakan di aplikasi downstream
Tutorial ini menunjukkan beberapa kemungkinan cara menggunakan Gemini API untuk memproses dokumen PDF.
Detail teknis
Gemini mendukung maksimum 1.000 halaman dokumen. Halaman dokumen harus dalam salah satu jenis MIME data teks berikut:
- PDF -
application/pdf
- JavaScript -
application/x-javascript
,text/javascript
- Python -
application/x-python
,text/x-python
- TXT -
text/plain
- HTML -
text/html
- CSS -
text/css
- Markdown -
text/md
- CSV -
text/csv
- XML -
text/xml
- RTF -
text/rtf
Setiap halaman dokumen setara dengan 258 token.
Meskipun tidak ada batas spesifik untuk jumlah piksel dalam dokumen selain jendela konteks model, halaman yang lebih besar akan diskalakan ke resolusi maksimum 3072x3072 sambil mempertahankan rasio aspek aslinya, sedangkan halaman yang lebih kecil akan diskalakan hingga 768x768 piksel. Tidak ada pengurangan biaya untuk halaman dengan ukuran yang lebih rendah, selain bandwidth, atau peningkatan performa untuk halaman dengan resolusi yang lebih tinggi.
Untuk hasil terbaik:
- Putar halaman ke orientasi yang benar sebelum mengupload.
- Hindari halaman yang buram.
- Jika menggunakan satu halaman, tempatkan perintah teks setelah halaman.
Langkah berikutnya
Untuk mempelajari lebih lanjut, lihat referensi berikut:
- Strategi perintah file: Gemini API mendukung perintah dengan data teks, gambar, audio, dan video, yang juga dikenal sebagai perintah multimodal.
- Petunjuk sistem: Petunjuk sistem memungkinkan Anda mengarahkan perilaku model berdasarkan kebutuhan dan kasus penggunaan tertentu.