ドキュメントの理解

Gemini API は、長いドキュメント(最大 1, 000 ページ)を含む PDF 入力をサポートしています。Gemini モデルはネイティブなビジョンで PDF を処理するため、ドキュメント内のテキストと画像の両方のコンテンツを理解できます。ネイティブの PDF ビジョンをサポートしているため、Gemini モデルは次のことができます。

  • ドキュメント内の図、グラフ、表を分析する
  • 情報を構造化された出力形式に抽出する
  • ドキュメント内の画像とテキストの内容に関する質問に回答する
  • ドキュメントを要約する
  • ドキュメントのコンテンツを文字起こし(HTML など)し、レイアウトと書式を保持してダウンストリーム アプリケーションで使用できるようにする

このチュートリアルでは、Gemini API を使用して PDF ドキュメントを処理する方法について説明します。

詳細な技術情報

Gemini は最大 1,000 ページのドキュメントをサポートしています。ドキュメント ページは、次のいずれかのテキストデータ MIME タイプである必要があります。

  • PDF - application/pdf
  • JavaScript - application/x-javascripttext/javascript
  • Python - application/x-pythontext/x-python
  • TXT - text/plain
  • HTML - text/html
  • CSS - text/css
  • Markdown - text/md
  • CSV - text/csv
  • XML - text/xml
  • RTF - text/rtf

各ドキュメント ページは 258 個のトークンに相当します。

ドキュメント内のピクセル数には、モデルのコンテキスト ウィンドウ以外に特に制限はありませんが、大きなページは元のアスペクト比を維持したまま最大解像度 3, 072x3, 072 に縮小され、小さいページは 768x768 ピクセルに拡大されます。サイズが小さいページでは、帯域幅を除き、費用が削減されることはありません。また、解像度が高いページのパフォーマンスが向上することはありません。

最良の結果を得るために、次のことを行います。

  • アップロードする前に、ページを適切な向きに回転してください。
  • ぼやけたページは避けてください。
  • 1 つのページを使用する場合は、ページの後にテキスト プロンプトを配置します。

次のステップ

詳細については、次のリソースをご覧ください。

  • ファイル プロンプト戦略: Gemini API は、テキスト、画像、音声、動画データによるプロンプト(マルチモーダル プロンプト)をサポートしています。
  • システム指示: システム指示を使用すると、特定のニーズやユースケースに基づいてモデルの動作を制御できます。