Arten von Kontingenten Verwandte Laufzeitkontingente Beantragen einer Kontingenterhöhung

Kontingente für den Bedrock-Runtime-Endpunkt

Der bedrock-runtime.region.amazonaws.com Endpunkt ist der primäre Inferenzendpunkt für Amazon Bedrock. Der Inferenzdatenverkehr zu diesem Endpunkt wird durch tokenbasierte Kontingente pro Modell geregelt. Sie können diese Kontingente in der Service-Kontingents-Konsole anzeigen, indem Sie Amazon Bedrock als Service auswählen, oder in der Amazon Bedrock-Servicekontingenttabelle im. Allgemeine AWS-Referenz

Arten von Kontingenten

Die Inferenz auf dem bedrock-runtime Endpunkt wird durch die folgenden Kontingente pro Modell bestimmt:

Kontingente pro Modell für die Mindestlaufzeit
Kontingent	Scope	Description
Cross-Region InvokeModel Tokens pro Minute für `${model}`	Pro Modell, pro Region	Die maximale Anzahl von Tokens pro Minute (Eingabe und Ausgabe, kombiniert), die Ihr Konto für das Modell verwenden kann, wenn es über ein regionsübergreifendes Inferenzprofil aufgerufen wird.
On-demand InvokeModel Token pro Minute für `${model}`	Pro Modell, pro Region	Die maximale Anzahl von Tokens pro Minute (Eingabe und Ausgabe, kombiniert), die Ihr Konto für das Modell verwenden kann, wenn es bei Bedarf in einer einzelnen Region aufgerufen wird.
Modellieren Sie die maximale Anzahl an Tokens pro Tag für `${model}`	Pro Modell, pro Region	Die maximale Anzahl von Tokens pro Tag (Eingabe + Ausgabe, kombiniert), die Ihr Konto für das Modell verwenden kann. Standardmäßig ist dieser Wert das Kontingent pro Minute multipliziert mit 24 × 60. Neue Produkte erhalten AWS-Konten möglicherweise reduzierte Kontingente.
InvokeModel Anfragen pro Minute für `${model}`	Pro Modell, pro Region	Die maximale Anzahl von Inferenzanfragen pro Minute, die Ihr Konto für das Modell einreichen kann. RPM wird für einige Modelle auf dem `bedrock-runtime` Endpunkt erzwungen und für andere nicht. Die genauen Kontingente, die für Ihr Modell gelten, finden Sie in der Service-Kontingents-Konsole.

Die TPM-Kontingente für bedrock-runtime Endgeräte zählen Eingabe- und Ausgabetokens zusammen auf ein einzelnes Kontingent pro Modell. Der bedrock-mantle Endpunkt wendet separate Kontingente für Eingabetoken pro Minute und Ausgabetokens pro Minute an. Weitere Informationen finden Sie unter. Kontingente für den Endpunkt „Bedrock-Mantle“

Anmerkung

bedrock-runtimeRPM-Kontingente auf dem Endpunkt sind modellspezifisch. Einige Modelle — zum Beispiel Anthropic Claude Opus 4.7 und Claude Opus 4.8 — haben kein RPM-Kontingent und unterliegen ausschließlich den in diesem Abschnitt beschriebenen tokenbasierten Kontingenten. Bei Modellen, die über ein RPM-Kontingent verfügen, können Sie den genauen Wert in der Konsole Service Quotas einsehen.

Ausgabetokens werden anhand einer modellspezifischen Burndown-Rate in die Kontingentnutzung umgerechnet. Einzelheiten dazu, wie tokenbasierte Kontingente berechnet werden und wie sich der max_tokens Anforderungsparameter auf Abzüge auswirkt, finden Sie unter. So werden Token in Amazon Bedrock gezählt

Beantragen einer Kontingenterhöhung

Die Schritte zur Beantragung einer Kontingenterhöhung für Ihr Konto hängen vom Wert in der Spalte Anpassbar in der Tabelle mit den Kontingenten in Amazon Bedrock Service Quotas ab.

Wichtig

Bevor Sie eine Kontingenterhöhung beantragen, stellen Sie sicher, dass sich das Modell nicht im Lebenszyklusstatus Legacy oder Deprecated befindet. Für Modelle, deren Ausmusterung geplant ist, werden keine Quotenerhöhungen gewährt. Überprüfen Sie den Lebenszyklusstatus des Modells auf der Modelllebenszyklus Seite und ziehen Sie stattdessen eine Migration zum Nachfolgemodell in Betracht.

Wenn ein Kontingent mit Ja markiert ist, können Sie es anpassen, indem Sie die Schritte unter Anfordern einer Kontingenterhöhung im Benutzerhandbuch zu Service Quotas befolgen.
Für jedes Modell können Sie eine Erhöhung für die folgenden Kontingente gemeinsam anfordern:
- Cross-Region InvokeModel Tokens pro Minute für ${model}
- On-demand InvokeModel Tokens pro Minute für ${model}
- Max. Anzahl der Token pro Tag für den Modellaufruf ${model}
Um eine Erhöhung für eine beliebige Kombination dieser Kontingente zu beantragen, fordern Sie eine Erhöhung der Cross-Region InvokeModel Tokens pro Minute für das ${model} Kontingent an, indem Sie die Schritte unter Anfrage einer Kontingenterhöhung im Servicekontingents-Benutzerhandbuch befolgen. Sobald Sie dies getan haben, wird sich das Support-Team mit Ihnen in Verbindung setzen und Ihnen die Möglichkeit anbieten, auch die anderen beiden Kontingente zu erhöhen.

Anmerkung
Aufgrund der hohen Nachfrage werden Kunden bevorzugt behandelt, deren Datenverkehr das ihnen zugewiesene Kontingent überschreitet. Ihre Anfrage wird möglicherweise abgelehnt, wenn Sie diese Bedingung nicht erfüllen.

Informationen zu bedrock-mantle Kontingenterhöhungen finden Sie unterBeantragen einer Kontingenterhöhung.

Dokumentkonventionen

CountTokens API

Kontingente zwischen Grundschicht und Erdmantel