Cette page a été traduite par l'API Cloud Translation.

Compréhension des documents

L'API Gemini accepte l'entrée au format PDF, y compris les documents volumineux (jusqu'à 1 000 pages). Les modèles Gemini traitent les PDF avec une vision native et sont donc capables de comprendre à la fois le contenu textuel et les images dans les documents. Grâce à la prise en charge native de la vision PDF, les modèles Gemini peuvent:

Analyser des diagrammes, des graphiques et des tableaux dans des documents
Extraire des informations dans des formats de sortie structurés
Répondre à des questions sur le contenu visuel et textuel de documents
Résumer des documents
Transcrire le contenu d'un document (par exemple, au format HTML) en conservant les mises en page et la mise en forme, pour l'utiliser dans des applications en aval

Ce tutoriel présente quelques façons d'utiliser l'API Gemini pour traiter des documents PDF.

Détails techniques

Gemini accepte un maximum de 1 000 pages de document. Les pages de document doivent correspondre à l'un des types MIME de données textuelles suivants:

PDF - application/pdf
JavaScript : application/x-javascript, text/javascript
Python : application/x-python, text/x-python
TXT : text/plain
HTML : text/html
CSS : text/css
Markdown - text/md
CSV : text/csv
XML : text/xml
RTF - text/rtf

Chaque page de document équivaut à 258 jetons.

Bien qu'il n'existe aucune limite spécifique au nombre de pixels dans un document en dehors de la fenêtre contextuelle du modèle, les pages plus grandes sont réduites à une résolution maximale de 3 072 x 3 072, tout en préservant leur format d'origine, tandis que les pages plus petites sont agrandies à 768 x 768 pixels. Il n'y a pas de réduction des coûts pour les pages de taille inférieure, à l'exception de la bande passante, ni d'amélioration des performances pour les pages de résolution supérieure.

Pour des résultats optimaux, procédez comme suit :

Faites pivoter les pages dans l'orientation appropriée avant de les importer.
Évitez les pages floues.
Si vous utilisez une seule page, placez la requête textuelle après la page.

Étape suivante

Pour en savoir plus, consultez les ressources suivantes :

Stratégies d'invite de fichier: l'API Gemini prend en charge les invites avec des données textuelles, des images, des données audio et des données vidéo, également appelées invites multimodales.
Instructions système : les instructions système vous permettent d'orienter le comportement du modèle en fonction de vos besoins et de vos cas d'utilisation spécifiques.