L'API Gemini accepte l'entrée au format PDF, y compris les documents volumineux (jusqu'à 1 000 pages). Les modèles Gemini traitent les PDF avec une vision native et sont donc capables de comprendre à la fois le contenu textuel et les images dans les documents. Grâce à la prise en charge native de la vision PDF, les modèles Gemini peuvent:
- Analyser des diagrammes, des graphiques et des tableaux dans des documents
- Extraire des informations dans des formats de sortie structurés
- Répondre à des questions sur le contenu visuel et textuel de documents
- Résumer des documents
- Transcrire le contenu d'un document (par exemple, au format HTML) en conservant les mises en page et la mise en forme, pour l'utiliser dans des applications en aval
Ce tutoriel présente quelques façons d'utiliser l'API Gemini pour traiter des documents PDF.
Détails techniques
Gemini accepte un maximum de 1 000 pages de document. Les pages de document doivent correspondre à l'un des types MIME de données textuelles suivants:
- PDF -
application/pdf
- JavaScript :
application/x-javascript
,text/javascript
- Python :
application/x-python
,text/x-python
- TXT :
text/plain
- HTML :
text/html
- CSS :
text/css
- Markdown -
text/md
- CSV :
text/csv
- XML :
text/xml
- RTF -
text/rtf
Chaque page de document équivaut à 258 jetons.
Bien qu'il n'existe aucune limite spécifique au nombre de pixels dans un document en dehors de la fenêtre contextuelle du modèle, les pages plus grandes sont réduites à une résolution maximale de 3 072 x 3 072, tout en préservant leur format d'origine, tandis que les pages plus petites sont agrandies à 768 x 768 pixels. Il n'y a pas de réduction des coûts pour les pages de taille inférieure, à l'exception de la bande passante, ni d'amélioration des performances pour les pages de résolution supérieure.
Pour des résultats optimaux, procédez comme suit :
- Faites pivoter les pages dans l'orientation appropriée avant de les importer.
- Évitez les pages floues.
- Si vous utilisez une seule page, placez la requête textuelle après la page.
Étape suivante
Pour en savoir plus, consultez les ressources suivantes :
- Stratégies d'invite de fichier: l'API Gemini prend en charge les invites avec des données textuelles, des images, des données audio et des données vidéo, également appelées invites multimodales.
- Instructions système : les instructions système vous permettent d'orienter le comportement du modèle en fonction de vos besoins et de vos cas d'utilisation spécifiques.