Tipos de cota Cotas de tempo de execução relacionadas Solicitar um aumento de cota

Cotas para o endpoint de tempo de execução básico

O bedrock-runtime.region.amazonaws.com endpoint é o principal endpoint de inferência do Amazon Bedrock. O tráfego de inferência para esse endpoint é controlado por cotas baseadas em tokens por modelo. Você pode visualizar essas cotas no console Service Quotas selecionando Amazon Bedrock como serviço ou na tabela de cotas do serviço Amazon Bedrock no. Referência geral da AWS

Tipos de cota

A inferência no bedrock-runtime endpoint é governada pelas seguintes cotas por modelo:

cotas de tempo de execução básico por modelo
Quota	Escopo	Description
Cross-Region InvokeModel tokens por minuto para `${model}`	Por modelo, por região	O número máximo de tokens por minuto (entrada e saída, combinados) que sua conta pode usar para o modelo quando invocada por meio de um perfil de inferência entre regiões.
On-demand InvokeModel tokens por minuto para `${model}`	Por modelo, por região	O número máximo de tokens por minuto (entrada e saída, combinados) que sua conta pode usar para o modelo quando invocada sob demanda em uma única região.
Número máximo de tokens de invocação do modelo por dia para `${model}`	Por modelo, por região	O número máximo de tokens por dia (entrada e saída, combinados) que sua conta pode usar para o modelo. Por padrão, esse valor é a cota por minuto multiplicada por 24 × 60. Novos Contas da AWS podem receber cotas reduzidas.
InvokeModel solicitações por minuto para `${model}`	Por modelo, por região	O número máximo de solicitações de inferência por minuto que sua conta pode enviar para o modelo. O RPM é aplicado a alguns modelos no `bedrock-runtime` endpoint e não a outros; consulte o console Service Quotas para ver as cotas exatas que se aplicam ao seu modelo.

As cotas do TPM do bedrock-runtime endpoint contam os tokens de entrada e saída juntos em relação a uma única cota por modelo. O bedrock-mantle endpoint aplica cotas separadas de tokens de entrada por minuto e de tokens de saída por minuto; para obter detalhes, consulte. Cotas para o endpoint rocho-mantle

nota

As cotas de RPM no bedrock-runtime endpoint são específicas do modelo. Alguns modelos — por exemplo, Anthropic Claude Opus 4.7 e Claude Opus 4.8 — não têm uma cota de RPM e são regidos somente pelas cotas baseadas em tokens descritas nesta seção. Para modelos que têm uma cota de RPM, veja o valor exato no console Service Quotas.

Os tokens de saída são convertidos em uso de cotas por meio de uma taxa de burndown específica do modelo. Para obter detalhes sobre como as cotas baseadas em tokens são calculadas e como o parâmetro da max_tokens solicitação afeta as deduções, consulte. Como os tokens são contados no Amazon Bedrock

Cotas de tempo de execução relacionadas

Os seguintes recursos do Amazon Bedrock são atendidos por meio do bedrock-runtime endpoint e têm suas próprias cotas separadas:

Perfis de inferência personalizados — perfis de Application-defined inferência que envolvem um modelo subjacente. Consulte Configurar um recurso de invocação de modelo usando perfis de inferência.
Inferência em lote — trabalhos de inferência assíncronos de grande volume. Consulte Processar vários prompts com inferência em lote.
Taxa de transferência provisionada — Capacidade reservada da unidade modelo. Consulte Aumentar a capacidade de invocação do modelo com throughput provisionado no Amazon Bedrock.

Essas cotas se aplicam somente ao bedrock-runtime endpoint e não são expostas no bedrock-mantle endpoint.

Solicitar um aumento de cota

As etapas para solicitar um aumento de cota para sua conta dependem do valor na coluna Ajustável na tabela de cotas nas cotas do serviço Amazon Bedrock.

Importante

Antes de solicitar um aumento de cota, verifique se o modelo não está em um status de ciclo de vida legado ou obsoleto. Os aumentos de cota não são concedidos para modelos que estão programados para aposentadoria. Verifique o status do ciclo de vida do modelo na Ciclo de vida do modelo página e considere migrar para o modelo sucessor.

Se uma cota estiver marcada como Sim, você poderá ajustá-la seguindo as etapas em Solicitar um aumento de cota no “Guia do usuário do Service Quotas”.
Seja qual for o modelo, você pode solicitar um aumento para as seguintes cotas ao mesmo tempo:
- Cross-Region InvokeModel tokens por minuto para ${model}
- On-demand InvokeModel tokens por minuto para ${model}
- Número máximo de tokens de invocação do modelo por dia para ${model}
Para solicitar um aumento para qualquer combinação dessas cotas, solicite um aumento dos Cross-Region InvokeModel tokens por minuto da ${model} cota seguindo as etapas em Solicitando um aumento de cota no Guia do usuário de cotas de serviço. Depois de fazer isso, a equipe de suporte entrará em contato e oferecerá a opção de também aumentar as outras duas cotas.

nota
Devido à extraordinária demanda, a prioridade será dada aos clientes que geram tráfego que consome sua alocação de cota existente. Sua solicitação poderá ser negada se você não atender a essa condição.

Para aumentos de bedrock-mantle cota, consulteSolicitar um aumento de cota.

Convenções do documento

CountTokens API

cotas rochosas