Tipos de cuotas Cuotas de tiempo de ejecución relacionadas Solicitud de aumento de cuota

Cuotas para el punto final de tiempo de ejecución fundamental

El bedrock-runtime.region.amazonaws.com punto final es el punto final de inferencia principal de Amazon Bedrock. El tráfico de inferencia a este punto final se rige por cuotas basadas en fichas por modelo. Puede ver estas cuotas en la consola de Service Quotas seleccionando Amazon Bedrock como servicio o en la tabla de cuotas de servicio de Amazon Bedrock de. Referencia general de AWS

Tipos de cuotas

La inferencia en el bedrock-runtime punto final se rige por las siguientes cuotas por modelo:

cuotas fundamentales de tiempo de ejecución por modelo
Cuota	Alcance	Description (Descripción)
Cross-Region InvokeModel fichas por minuto para `${model}`	Por modelo, por región	El número máximo de fichas por minuto (entrada y salida combinadas) que su cuenta puede usar para el modelo cuando se invoca a través de un perfil de inferencia entre regiones.
On-demand InvokeModel fichas por minuto para `${model}`	Por modelo, por región	El número máximo de fichas por minuto (entrada y salida combinadas) que su cuenta puede usar para el modelo cuando se invoca bajo demanda en una sola región.
Modela el número máximo de tokens por día para `${model}`	Por modelo, por región	La cantidad máxima de fichas por día (entrada y salida, combinadas) que su cuenta puede usar para el modelo. De forma predeterminada, este valor es la cuota por minuto multiplicada por 24 × 60. Los nuevos Cuentas de AWS podrían recibir cuotas reducidas.
InvokeModel solicitudes por minuto para `${model}`	Por modelo, por región	El número máximo de solicitudes de inferencia por minuto que su cuenta puede enviar para el modelo. Las RPM se imponen para algunos modelos en el `bedrock-runtime` punto final y no para otros; consulte la consola Service Quotas para ver las cuotas exactas que se aplican a su modelo.

Las cuotas de TPM de bedrock-runtime punto final cuentan los tokens de entrada y salida juntos en función de una cuota única por modelo. El bedrock-mantle punto final aplica cuotas separadas de fichas de entrada por minuto y de salida por minuto; para obtener más información, consulte. Cuotas para el punto final entre el lecho rocoso y el manto

nota

Las cuotas bedrock-runtime de RPM en el punto final son específicas del modelo. Algunos modelos (por ejemplo, Anthropic Claude Opus 4.7 y Claude Opus 4.8) no tienen una cuota de RPM y se rigen únicamente por las cuotas basadas en fichas que se describen en esta sección. Para los modelos que sí tienen una cuota de RPM, consulte el valor exacto en la consola Service Quotas.

Los tokens de salida se convierten en cuotas de uso mediante una tasa de agotamiento específica del modelo. Para obtener más información sobre cómo se calculan las cuotas basadas en fichas y cómo afecta el parámetro de max_tokens solicitud a las deducciones, consulte. Contabilización de los tokens en Amazon Bedrock

Cuotas de tiempo de ejecución relacionadas

Las siguientes capacidades de Amazon Bedrock se ofrecen a través del bedrock-runtime punto de conexión y tienen sus propias cuotas independientes:

Perfiles de inferencia personalizados: perfiles de Application-defined inferencia que envuelven un modelo subyacente. Consulte Configuración de un recurso de invocación de modelos mediante perfiles de inferencia.
Inferencia por lotes: trabajos de inferencia asíncronos de gran volumen. Consulte Procesamiento de múltiples peticiones con la inferencia por lotes.
Rendimiento aprovisionado: capacidad reservada de unidades modelo. Consulte Aumento de la capacidad de invocación de modelos con el rendimiento aprovisionado en Amazon Bedrock.

Estas cuotas se aplican solo al bedrock-runtime punto final y no están expuestas en el punto final. bedrock-mantle

Solicitud de aumento de cuota

Los pasos para solicitar un aumento de cuota para su cuenta dependen del valor de la columna Ajustable de la tabla de cuotas de servicio de Amazon Bedrock.

importante

Antes de solicitar un aumento de cuota, compruebe que el modelo no esté en estado de ciclo de vida heredado o obsoleto. No se conceden aumentos de cuota a los modelos cuya retirada está programada. Compruebe el estado del ciclo de vida del modelo en la Ciclo de vida del modelo página y, en su lugar, considere la posibilidad de migrar al modelo sucesor.

Si una cuota está marcada como Sí, puede ajustarla siguiendo los pasos de Solicitud de un aumento de cuota en la Guía del usuario de Service Quotas.
Para cualquier modelo, puede solicitar un aumento de las cuotas siguientes:
- Cross-Region InvokeModel fichas por minuto para ${model}
- On-demand InvokeModel fichas por minuto para ${model}
- Modele el máximo de tokens de invocación por día para ${model}
Para solicitar un aumento de cualquier combinación de estas cuotas, solicita un aumento de los Cross-Region InvokeModel tokens por minuto de la ${model} cuota siguiendo los pasos que se indican en la Guía del usuario sobre cómo solicitar un aumento de cuota en la Guía del usuario de Service Quotas. Cuando lo hagas, el equipo de asistencia se pondrá en contacto contigo y te ofrecerá la opción de aumentar también las otras dos cuotas.

nota
Debido a la abrumadora demanda, se dará prioridad a los clientes que generen tráfico que consuma la cuota que tienen asignada. La solicitud se denegará si no cumple esta condición.

Para obtener bedrock-mantle información sobre los aumentos de cuota, consulteSolicitud de aumento de cuota.

Convenciones del documento

CountTokens API

cuotas entre el manto rocoso