

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Quote per l'endpoint bedrock-runtime
<a name="quotas-runtime"></a>

L'`bedrock-runtime.{{region}}.amazonaws.com`endpoint è l'endpoint di inferenza principale per Amazon Bedrock. Il traffico di inferenza verso questo endpoint è regolato da quote basate su token per modello. Puoi visualizzare queste quote nella console [Service Quotas](https://docs.aws.amazon.com/servicequotas/latest/userguide/gs-request-quota.html) selezionando **Amazon** Bedrock come servizio o nella tabella delle quote del servizio [Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#limits_bedrock) nel. Riferimenti generali di AWS

## Tipi di quote
<a name="quotas-runtime-types"></a>

L'inferenza sull'`bedrock-runtime`endpoint è regolata dalle seguenti quote per modello:


**quote base di runtime per modello**  

| Quota | Scope | Description | 
| --- | --- | --- | 
| Cross-Region InvokeModel gettoni al minuto per {{${model}}} | Per modello, per regione | Il numero massimo di token al minuto (input\+output, combinati) che l'account può utilizzare per il modello quando viene richiamato tramite un profilo di inferenza interregionale. | 
| On-demand InvokeModel gettoni al minuto per {{${model}}} | Per modello, per regione | Il numero massimo di token al minuto (input\+output, combinati) che l'account può utilizzare per il modello quando viene richiamato su richiesta in una singola regione. | 
| Numero massimo di token al giorno di invocazione del modello per {{${model}}} | Per modello, per regione | Il numero massimo di token al giorno (input\+output, combinati) che l'account può utilizzare per il modello. Per impostazione predefinita, questo valore è la quota al minuto moltiplicata per 24 × 60. I nuovi Account AWS potrebbero ricevere quote ridotte. | 
| InvokeModel richieste al minuto per {{${model}}} | Per modello, per regione | Il numero massimo di richieste di inferenza al minuto che il tuo account può inviare per il modello. L'RPM viene applicato per alcuni modelli sull'bedrock-runtimeendpoint e non per altri; consulta la console Service Quotas per le quote esatte che si applicano al tuo modello. | 

Le quote TPM dell'`bedrock-runtime`endpoint contano i token di input e output insieme rispetto a un'unica quota per modello. L'`bedrock-mantle`endpoint applica quote separate di token di input al minuto e di token di output al minuto; per i dettagli, vedere. [Quote per l'endpoint del substrato roccioso](quotas-mantle.md)

**Nota**  
Le quote `bedrock-runtime` RPM sull'endpoint sono specifiche del modello. Alcuni modelli, ad esempio Anthropic Claude Opus 4.7 e Claude Opus 4.8, non hanno una quota RPM e sono regolati esclusivamente dalle quote basate su token descritte in questa sezione. Per i modelli che dispongono di una quota RPM, visualizza il valore esatto nella console [Service Quotas](https://docs.aws.amazon.com/servicequotas/latest/userguide/gs-request-quota.html).

I token di output vengono convertiti in utilizzo delle quote tramite un tasso di burndown specifico del modello. Per i dettagli su come vengono calcolate le quote basate sui token e su come il parametro di richiesta influisce sulle detrazioni, vedere. `max_tokens` [Come vengono conteggiati i token in Amazon Bedrock](quotas-token-burndown.md)

## Quote di runtime correlate
<a name="quotas-runtime-other"></a>

Le seguenti funzionalità di Amazon Bedrock vengono servite tramite l'`bedrock-runtime`endpoint e hanno quote separate:
+ Profili di **inferenza personalizzati: profili** di Application-defined inferenza che racchiudono un modello sottostante. Per informazioni, consulta [Configurare una risorsa di invocazione del modello utilizzando i profili di inferenza](inference-profiles.md).
+ **Inferenza in batch: lavori di inferenza** asincroni di grandi volumi. Per informazioni, consulta [Elaborazione di più prompt con l’inferenza in batch](batch-inference.md).
+ **Provisioned Throughput**: capacità riservata per unità modello. Per informazioni, consulta [Aumenta la capacità di invocazione del modello con Provisioned Throughput in Amazon Bedrock](prov-throughput.md).

Queste quote si applicano solo all'`bedrock-runtime`endpoint e non sono esposte sull'endpoint. `bedrock-mantle`

## Richiedere un aumento della quota
<a name="quotas-runtime-increase"></a>

I passaggi per richiedere un aumento della quota per il tuo account dipendono dal valore nella colonna **Regolabile** nella tabella delle quote nelle quote dei servizi [Amazon Bedrock](https://docs.aws.amazon.com/general/latest/gr/bedrock.html#limits_bedrock).

**Importante**  
*Prima di richiedere un aumento della quota, verifica che il modello non abbia lo stato del ciclo di vita *Legacy* o Deprecato.* Gli aumenti delle quote non sono concessi per i modelli il cui ritiro è previsto. Controlla lo stato del ciclo di vita del modello sulla [Ciclo di vita del modello](model-lifecycle.md) pagina e valuta invece la possibilità di migrare al modello successivo.
+ Se una quota è contrassegnata con **Sì**, puoi modificarla seguendo la procedura riportata nella sezione [Richiesta di aumento delle quote](https://docs.aws.amazon.com/servicequotas/latest/userguide/request-quota-increase.html) nella Guida per l’utente di Service Quotas.
+ Per qualsiasi modello, puoi richiedere un aumento per le quote seguenti:
  + Cross-Region InvokeModel gettoni al minuto per {{${model}}}
  + On-demand InvokeModel gettoni al minuto per {{${model}}}
  + Richiamata del modello (numero massimo di token al giorno) per {{${model}}}

  Per richiedere un aumento per qualsiasi combinazione di queste quote, richiedi un aumento dei **Cross-Region InvokeModel token al minuto per** la {{${model}}} quota seguendo i passaggi riportati in [Richiesta di aumento della quota nella Guida per l'utente delle quote](https://docs.aws.amazon.com/servicequotas/latest/userguide/request-quota-increase.html) di servizio. Dopo averlo fatto, il team di supporto ti contatterà e ti offrirà la possibilità di aumentare anche le altre due quote.
**Nota**  
A causa dell’enorme domanda, verrà data priorità ai clienti che generano traffico che utilizza la loro assegnazione di quote esistenti. La tua richiesta potrebbe essere rifiutata se non soddisfi questa condizione.

Per gli aumenti `bedrock-mantle` delle quote, consulta[Richiedere un aumento della quota](quotas-mantle.md#quotas-mantle-increase).