Modelos compatíveis

As tabelas a seguir mostram os modelos compatíveis com a capacidade de processamento provisionada, a capacidade de processamento para cada Unidade de escala de IA generativa (GSU, na sigla em inglês) e as taxas de burndown de cada modelo.

Modelos do Google

A capacidade de processamento provisionada só oferece suporte a modelos chamados diretamente do seu projeto usando o ID específico do modelo, e não um alias. Para usar o throughput provisionado para fazer chamadas de API para um modelo, use o ID da versão do modelo específico (por exemplo, gemini-2.0-flash-001) e não um alias da versão do modelo.

Além disso, a capacidade provisionada não oferece suporte a modelos chamados por outros produtos da Vertex AI, como os agentes e a Pesquisa da Vertex AI. Por exemplo, se você fizer chamadas de API para o Gemini 2.0 Flash ao usar a Vertex AI para Pesquisa, sua ordem de throughput provisionado para o Gemini 2.0 Flash não vai garantir as chamadas feitas pela Vertex AI para Pesquisa.

A tabela a seguir mostra a capacidade de processamento, o incremento de compra e as taxas de burndown para modelos do Google que oferecem suporte à capacidade de processamento provisionada. Seu throughput por segundo é definido como a entrada de comando e a saída gerada em todas as solicitações por segundo.

Para descobrir quantos tokens sua carga de trabalho exige, consulte o tokenizador do SDK ou a API countTokens.

Modelo Capacidade de processamento por segundo por GSU Unidades Incremento mínimo de compra de GSU Taxas de burndown

Gemini 2.5 Pro

Versão mais recente com suporte: gemini-2.5-pro-preview-06-05 (pré-lançamento)

540 Tokens 1 Menos de 200.000 tokens de entrada:
1 token de texto de entrada = 1 token
1 token de imagem de entrada = 1 token
1 token de vídeo de entrada = 1 token
1 token de áudio de entrada = 1 token
1 token de texto de resposta de saída = 8 tokens
1 token de texto de raciocínio de saída = 8 tokens

Mais de 200.000 tokens de entrada:
1 token de texto de entrada = 2 tokens
1 token de imagem de entrada = 2 tokens
1 token de vídeo de entrada = 2 tokens
1 token de áudio de entrada = 2 tokens
1 token de texto de resposta de saída = 12 tokens
1 token de texto de raciocínio de saída = 12 tokens

Gemini 2.5 Flash

Versão mais recente com suporte: gemini-2.5-flash-preview-04-17 (pré-lançamento)

4480 Tokens 1 1 token de texto de entrada = 1 token
1 token de imagem de entrada = 1 token
1 token de vídeo de entrada = 1 token
1 token de áudio de entrada = 7 tokens
1 token de texto de resposta de saída = 4 tokens
1 token de texto de resposta de pensamento de saída = 24 tokens
1 token de texto de raciocínio de saída = 24 tokens

Gemini 2.0 Flash

Versão mais recente com suporte: gemini-2.0-flash

3360 Tokens 1 1 token de texto de entrada = 1 token
1 token de imagem de entrada = 1 token
1 token de vídeo de entrada = 1 token
1 token de áudio de entrada = 7 tokens
1 token de texto de saída = 4 tokens

Gemini 2.0 Flash-Lite

Versão mais recente com suporte: gemini-2.0-flash-lite

6720 Tokens 1 1 token de texto de entrada = 1 token
1 token de imagem de entrada = 1 token
1 token de vídeo de entrada = 1 token
1 token de áudio de entrada = 1 token
1 token de texto de saída = 4 tokens
Imagen 3 0,025 Imagens 1 Somente as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.
Imagen 3 Fast 0,05 Imagens 1 Somente as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.
Imagen 2 0,05 Imagens 1 Somente as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.
Editar Imagen 2 0,05 Imagens 1 Somente as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.
MedLM médio 2.000 Caracteres 1 1 caractere de entrada = 1 caractere
1 caractere de saída = 2 caracteres
MedLM grande 200 Caracteres 1 1 caractere de entrada = 1 caractere
1 caractere de saída = 3 caracteres
MedLM grande 1.5 200 Caracteres 1 1 caractere de entrada = 1 caractere
1 caractere de saída = 3 caracteres

Você pode fazer upgrade para novos modelos assim que eles forem disponibilizados. Para informações sobre disponibilidade e datas de descontinuação, consulte Modelos do Google.

Para mais informações sobre os locais compatíveis, consulte Locais disponíveis.

Suporte a modelos de endpoints globais

A Capacidade de Processamento Provisionada oferece suporte ao endpoint global para os seguintes modelos:

  • Gemini 2.0 Flash

  • Gemini 2.0 Flash-Lite

O tráfego que excede a cota de throughput provisionado usa o endpoint global por padrão.

Para atribuir a capacidade de processamento provisionada ao endpoint global de um modelo, selecione global como a região ao fazer um pedido de capacidade de processamento provisionada.

Suporte a modelos com ajuste fino supervisionado

O seguinte é compatível com modelos do Google que oferecem suporte a ajustes de detalhes supervisionados:

  • A capacidade de processamento provisionada pode ser aplicada a modelos base e versões ajustadas supervisionadas desses modelos.

  • Os endpoints de modelos ajustados supervisionados e o modelo de base correspondente contam para a mesma cota de throughput provisionado.

    Por exemplo, o throughput provisionado comprado para gemini-2.0-flash-lite-001 em um projeto específico prioriza as solicitações feitas de versões supervisionadas e ajustadas de gemini-2.0-flash-lite-001 criadas nesse projeto. Use o cabeçalho adequado para controlar o comportamento do tráfego.

Modelos de parceiros

A tabela a seguir mostra a capacidade de processamento, o incremento de compra e as taxas de burndown dos modelos de parceiros que oferecem suporte à capacidade de processamento provisionada. Os modelos de Claude são medidos em tokens por segundo, que é definido como o total de tokens de entrada e saída em todas as solicitações por segundo.

Modelo Capacidade de processamento por GSU (tokens/s) Compra mínima de GSU Incremento de compra de GSU Taxas de burndown
Claude Opus 4 da Anthropic 70 35 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação de cache = 1,25 tokens
1 token de ocorrência em cache = 0,1 token
Claude Sonnet 4 da Anthropic 350 25 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação de cache = 1,25 tokens
1 token de ocorrência em cache = 0,1 token
Soneto Claude 3.7 da Anthropic 350 25 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação de cache = 1,25 tokens
1 token de ocorrência em cache = 0,1 token
Soneto Claude 3.5 v2 da Anthropic 350 25 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação de cache = 1,25 tokens
1 token de ocorrência em cache = 0,1 token
Haiku Claude 3.5 da Anthropic 2.000 10 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação de cache = 1,25 tokens
1 token de ocorrência em cache = 0,1 token
Claude 3 Opus da Anthropic 70 35 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação de cache = 1,25 tokens
1 token de ocorrência em cache = 0,1 token
Haiku Claude 3 da Anthropic 4.200 5 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação de cache = 1,25 tokens
1 token de ocorrência em cache = 0,1 token
Soneto Claude 3.5 da Anthropic 350 25 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
1 token de gravação de cache = 1,25 tokens
1 token de ocorrência em cache = 0,1 token

Para informações sobre os locais com suporte, consulte Disponibilidade de região do Anthropic Claude. Para solicitar a taxa de transferência provisionada para modelos Anthropic, entre em contato com o Google Cloud representante da conta.

A seguir