Modelli Google
Il throughput riservato supporta solo i modelli chiamati direttamente dal progetto utilizzando l'ID modello specifico e non un alias del modello. Per utilizzare il throughput pianificato per effettuare chiamate API a un modello, devi utilizzare l'ID versione del modello specifico (ad es. gemini-2.0-flash-001
) e non un alias della versione del modello.
Inoltre, il throughput pianificato non supporta i modelli chiamati da altri prodotti Vertex AI, come Vertex AI Agents e Vertex AI Search. Ad esempio, se effettui chiamate API a Gemini 2.0 Flash mentre utilizzi Vertex AI Search, l'ordine di throughput pianificato per Gemini 2.0 Flash non garantisce le chiamate effettuate da Vertex AI Search.
La tabella seguente mostra la velocità effettiva, l'incremento degli acquisti e le percentuali di burndown per i modelli Google che supportano la velocità effettiva pianificata. La velocità effettiva al secondo è definita come l'input del prompt e l'output generato per tutte le richieste al secondo.
Per scoprire quanti token sono richiesti dal tuo workload, fai riferimento al tokenizzatore SDK o all'API countTokens.
Modello | Portata al secondo per GSU | Unità | Incremento minimo di acquisto di GSU | Tassi di burndown |
---|---|---|---|---|
Gemini 2.5 Pro Ultima versione supportata: |
540 | Token | 1 |
Meno o uguale a 200.000 token di input: 1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di video di input = 1 token 1 token di audio di input = 1 token 1 token di testo di risposta in uscita = 8 token 1 token di testo di ragionamento in uscita = 8 token Più di 200.000 token di input: 1 token di testo di input = 2 token 1 token di immagine di input = 2 token 1 token di video di input = 2 token 1 token di audio di input = 2 token 1 token di testo di risposta in uscita = 12 token 1 token di testo di ragionamento in uscita = 12 token |
Gemini 2.5 Flash Ultima versione supportata: |
4480 | Token | 1 |
1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di video di input = 1 token 1 token di audio di input = 7 token 1 token di testo di risposta di output = 4 token 1 token di testo di risposta di pensiero di output = 24 token 1 token di testo di ragionamento di output = 24 token |
Gemini 2.0 Flash Ultima versione supportata: |
3360 | Token | 1 |
1 token di testo in input = 1 token 1 token di immagine in input = 1 token 1 token di video in input = 1 token 1 token di audio in input = 7 token 1 token di testo in output = 4 token |
Gemini 2.0 Flash-Lite Ultima versione supportata: |
6720 | Token | 1 |
1 token di testo di input = 1 token 1 token di immagine di input = 1 token 1 token di video di input = 1 token 1 token di audio di input = 1 token 1 token di testo di output = 4 token |
Imagen 3 | 0,025 | Immagini | 1 | Solo le immagini di output vengono conteggiate ai fini della quota di throughput pianificato. |
Imagen 3 Fast | 0,05 | Immagini | 1 | Solo le immagini di output vengono conteggiate ai fini della quota di throughput pianificato. |
Imagen 2 | 0,05 | Immagini | 1 | Solo le immagini di output vengono conteggiate ai fini della quota di throughput pianificato. |
Modifica di Imagen 2 | 0,05 | Immagini | 1 | Solo le immagini di output vengono conteggiate ai fini della quota di throughput pianificato. |
MedLM medium | 2000 | Caratteri | 1 | 1 carattere di input = 1 carattere 1 carattere di output = 2 caratteri |
MedLM large | 200 | Caratteri | 1 | 1 carattere di input = 1 carattere 1 carattere di output = 3 caratteri |
MedLM large 1.5 | 200 | Caratteri | 1 | 1 carattere di input = 1 carattere 1 carattere di output = 3 caratteri |
Puoi eseguire l'upgrade ai nuovi modelli man mano che vengono resi disponibili. Per informazioni sulla disponibilità e sulle date di ritiro dei modelli, vedi Modelli Google.
Per ulteriori informazioni sulle località supportate, consulta Località disponibili.
Supporto del modello di endpoint globale
Il throughput riservato supporta l'endpoint globale per i seguenti modelli:
Gemini 2.0 Flash
Gemini 2.0 Flash-Lite
Il traffico che supera la quota di throughput riservato utilizza per impostazione predefinita l'endpoint globale.
Per assegnare il throughput Provisioning all'endpoint globale di un modello,
seleziona global
come regione quando effettui un ordine di throughput Provisioning.
Supporto dei modelli ottimizzati supervisionati
Per i modelli Google che supportano la ottimizzazione fine supervisionata, è supportato quanto segue:
Il throughput riservato può essere applicato sia ai modelli di base sia alle versioni ottimizzate supervisionate di questi modelli di base.
Gli endpoint dei modelli perfezionati supervisionati e i relativi modelli di base corrispondenti vengono conteggiati per la stessa quota di throughput riservato.
Ad esempio, il throughput pianificato acquistato per
gemini-2.0-flash-lite-001
per un progetto specifico dà la priorità alle richieste effettuate da versioni perfezionate supervisionate digemini-2.0-flash-lite-001
create all'interno del progetto. Utilizza l'intestazione appropriata per controllare il comportamento del traffico.
Modelli di partner
La tabella seguente mostra la velocità effettiva, l'incremento di acquisto e le percentuali di burndown per i modelli partner che supportano la velocità effettiva pianificata. I modelli Claude vengono misurati in token al secondo, che è definito come il totale dei token di input e di output per tutte le richieste al secondo.
Modello | Throughput per GSU (token/sec) | Acquisto minimo di GSU | Incremento dell'acquisto di GSU | Tassi di burndown |
---|---|---|---|---|
Claude Opus 4 di Anthropic | 70 | 35 | 1 | 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura nella cache = 1,25 token 1 token di successo della cache = 0,1 token |
Claude Sonnet 4 di Anthropic | 350 | 25 | 1 | 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura nella cache = 1,25 token 1 token di successo della cache = 0,1 token |
Claude 3.7 Sonnet di Anthropic | 350 | 25 | 1 | 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura nella cache = 1,25 token 1 token di successo della cache = 0,1 token |
Claude 3.5 Sonnet v2 di Anthropic | 350 | 25 | 1 | 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura nella cache = 1,25 token 1 token di successo della cache = 0,1 token |
Claude 3.5 Haiku di Anthropic | 2000 | 10 | 1 | 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura nella cache = 1,25 token 1 token di successo della cache = 0,1 token |
Claude 3 Opus di Anthropic | 70 | 35 | 1 | 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura nella cache = 1,25 token 1 token di successo della cache = 0,1 token |
Claude 3 Haiku di Anthropic | 4200 | 5 | 1 | 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura nella cache = 1,25 token 1 token di successo della cache = 0,1 token |
Claude 3.5 Sonnet di Anthropic | 350 | 25 | 1 | 1 token di input = 1 token 1 token di output = 5 token 1 token di scrittura nella cache = 1,25 token 1 token di successo della cache = 0,1 token |
Per informazioni sulle località supportate, consulta la pagina Disponibilità delle regioni di Anthropic Claude. Per ordinare il throughput pianificato per i modelli Anthropic, contatta il tuo Google Cloud rappresentante dell'account.