このページは Cloud Translation API によって翻訳されました。

ドキュメントの理解

Gemini API は、長いドキュメント（最大 1, 000 ページ）を含む PDF 入力をサポートしています。Gemini モデルはネイティブなビジョンで PDF を処理するため、ドキュメント内のテキストと画像の両方のコンテンツを理解できます。ネイティブの PDF ビジョンをサポートしているため、Gemini モデルは次のことができます。

ドキュメント内の図、グラフ、表を分析する
情報を構造化された出力形式に抽出する
ドキュメント内の画像とテキストの内容に関する質問に回答する
ドキュメントを要約する
ドキュメントのコンテンツを文字起こし（HTML など）し、レイアウトと書式を保持してダウンストリームアプリケーションで使用できるようにする

このチュートリアルでは、Gemini API を使用して PDF ドキュメントを処理する方法について説明します。

詳細な技術情報

Gemini は最大 1,000 ページのドキュメントをサポートしています。ドキュメントページは、次のいずれかのテキストデータ MIME タイプである必要があります。

PDF - application/pdf
JavaScript - application/x-javascript、text/javascript
Python - application/x-python、text/x-python
TXT - text/plain
HTML - text/html
CSS - text/css
Markdown - text/md
CSV - text/csv
XML - text/xml
RTF - text/rtf

各ドキュメントページは 258 個のトークンに相当します。

ドキュメント内のピクセル数には、モデルのコンテキストウィンドウ以外に特に制限はありませんが、大きなページは元のアスペクト比を維持したまま最大解像度 3, 072x3, 072 に縮小され、小さいページは 768x768 ピクセルに拡大されます。サイズが小さいページでは、帯域幅を除き、費用が削減されることはありません。また、解像度が高いページのパフォーマンスが向上することはありません。

最良の結果を得るために、次のことを行います。

アップロードする前に、ページを適切な向きに回転してください。
ぼやけたページは避けてください。
1 つのページを使用する場合は、ページの後にテキストプロンプトを配置します。

次のステップ

詳細については、次のリソースをご覧ください。

ファイルプロンプト戦略: Gemini API は、テキスト、画像、音声、動画データによるプロンプト（マルチモーダルプロンプト）をサポートしています。
システム指示: システム指示を使用すると、特定のニーズやユースケースに基づいてモデルの動作を制御できます。