Types de quotas Quotas d'exécution associés Demande d’augmentation de quota

Quotas pour le point de terminaison entre le socle et le temps d'exécution

Le bedrock-runtime.region.amazonaws.com point de terminaison est le principal point de terminaison d'inférence pour Amazon Bedrock. Le trafic d'inférence vers ce point de terminaison est régi par des quotas basés sur des jetons par modèle. Vous pouvez consulter ces quotas dans la console Service Quotas en sélectionnant Amazon Bedrock comme service, ou dans le tableau des quotas de service Amazon Bedrock dans le. Références générales AWS

Types de quotas

L'inférence sur le bedrock-runtime point de terminaison est régie par les quotas suivants par modèle :

quotas d'exécution par modèle de base
Quota	Scope	Description
Cross-Region InvokeModel jetons par minute pour `${model}`	Par modèle, par région	Le nombre maximum de jetons par minute (entrée+sortie, combinés) que votre compte peut utiliser pour le modèle lorsqu'il est invoqué via un profil d'inférence interrégional.
On-demand InvokeModel jetons par minute pour `${model}`	Par modèle, par région	Le nombre maximum de jetons par minute (entrée+sortie, combinés) que votre compte peut utiliser pour le modèle lorsqu'il est invoqué à la demande dans une seule région.
Modèle d'invocation, nombre maximum de jetons par jour pour `${model}`	Par modèle, par région	Le nombre maximum de jetons par jour (entrée+sortie, combinés) que votre compte peut utiliser pour le modèle. Par défaut, cette valeur est le quota par minute multiplié par 24 × 60. Les nouveaux Comptes AWS utilisateurs peuvent bénéficier de quotas réduits.
InvokeModel demandes par minute pour `${model}`	Par modèle, par région	Le nombre maximum de demandes d'inférence par minute que votre compte peut envoyer pour le modèle. Le RPM est appliqué à certains modèles sur le `bedrock-runtime` terminal et pas à d'autres ; consultez la console Service Quotas pour connaître les quotas exacts qui s'appliquent à votre modèle.

Les quotas TPM du point de bedrock-runtime terminaison comptabilisent les jetons d'entrée et de sortie ensemble par rapport à un quota unique par modèle. Le bedrock-mantle point de terminaison applique des quotas de jetons d'entrée par minute et de jetons de sortie par minute distincts ; pour plus de détails, voir. Quotas pour la limite entre le substrat rocheux et le manteau

Note

Les quotas de tours par minute sur le bedrock-runtime terminal sont spécifiques au modèle. Certains modèles, par exemple Anthropic Claude Opus 4.7 et Claude Opus 4.8, n'ont pas de quota de tours par minute et sont régis uniquement par les quotas basés sur des jetons décrits dans cette section. Pour les modèles dotés d'un quota de tr/min, consultez la valeur exacte dans la console Service Quotas.

Les jetons de sortie sont convertis en quotas d'utilisation par le biais d'un taux de combustion spécifique au modèle. Pour plus de détails sur le mode de calcul des quotas basés sur des jetons et sur la manière dont le paramètre de max_tokens demande affecte les déductions, consultez. Mode de comptabilisation des jetons dans Amazon Bedrock

Quotas d'exécution associés

Les fonctionnalités Amazon Bedrock suivantes sont proposées via le bedrock-runtime point de terminaison et disposent de leurs propres quotas distincts :

Profils d'inférence personnalisés : profils Application-defined d'inférence qui enveloppent un modèle sous-jacent. Consultez Configurer une ressource d’invocation de modèle à l’aide de profils d’inférence.
Inférence par lots — Tâches d'inférence asynchrones de gros volumes. Consultez Traitement de plusieurs invites grâce à l’inférence par lots.
Débit provisionné : capacité modèle-unité réservée. Consultez Augmentez la capacité d'invocation des modèles grâce au débit provisionné dans Amazon Bedrock.

Ces quotas s'appliquent uniquement au bedrock-runtime point de terminaison et ne sont pas exposés au bedrock-mantle point de terminaison.

Demande d’augmentation de quota

Les étapes à suivre pour demander une augmentation de quota pour votre compte dépendent de la valeur indiquée dans la colonne Réglable du tableau des quotas des services Amazon Bedrock.

Important

Avant de demander une augmentation de quota, vérifiez que le modèle n'est pas dans un état de cycle de vie obsolète ou obsolète. Aucune augmentation de quota n'est accordée pour les modèles dont la mise hors service est prévue. Vérifiez l'état du cycle de vie du modèle sur la Cycle de vie des modèles page et envisagez plutôt de migrer vers le modèle suivant.

Si un quota est marqué Oui, vous pouvez l’ajuster en suivant les étapes décrites dans Demande d’augmentation de quota dans le Guide d’utilisation de Service Quotas.
Pour tout modèle, vous pouvez demander une augmentation pour les quotas suivants ensemble :
- Cross-Region InvokeModel jetons par minute pour ${model}
- On-demand InvokeModel jetons par minute pour ${model}
- Modèle d'invocation, nombre maximum de jetons par jour pour ${model}
Pour demander une augmentation pour n'importe quelle combinaison de ces quotas, demandez une augmentation du nombre de Cross-Region InvokeModel jetons par minute pour le ${model} quota en suivant les étapes décrites dans la section Demander une augmentation de quota dans le Guide de l'utilisateur du Service Quotas. Une fois cela fait, l'équipe d'assistance vous contactera et vous proposera la possibilité d'augmenter également les deux autres quotas.

Note
En raison de la forte demande, la priorité sera accordée aux clients dont le trafic consomme le quota qui leur est alloué. Votre demande peut être refusée si vous ne remplissez pas cette condition.

Pour les augmentations de bedrock-mantle quotas, voirDemande d’augmentation de quota.

Conventions de rédaction

CountTokens API

quotas de substrat rocheux