Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Kontingente für den Bedrock-Runtime-Endpunkt
Der bedrock-runtime. Endpunkt ist der primäre Inferenzendpunkt für Amazon Bedrock. Der Inferenzdatenverkehr zu diesem Endpunkt wird durch tokenbasierte Kontingente pro Modell geregelt. Sie können diese Kontingente in der Service-Kontingents-Konsole anzeigen, indem Sie Amazon Bedrock als Service auswählen, oder in der Amazon Bedrock-Servicekontingenttabelle im. Allgemeine AWS-Referenzregion.amazonaws.com
Arten von Kontingenten
Die Inferenz auf dem bedrock-runtime Endpunkt wird durch die folgenden Kontingente pro Modell bestimmt:
| Kontingent | Scope | Description |
|---|---|---|
Cross-Region InvokeModel Tokens pro Minute für ${model} |
Pro Modell, pro Region | Die maximale Anzahl von Tokens pro Minute (Eingabe und Ausgabe, kombiniert), die Ihr Konto für das Modell verwenden kann, wenn es über ein regionsübergreifendes Inferenzprofil aufgerufen wird. |
On-demand InvokeModel Token pro Minute für ${model} |
Pro Modell, pro Region | Die maximale Anzahl von Tokens pro Minute (Eingabe und Ausgabe, kombiniert), die Ihr Konto für das Modell verwenden kann, wenn es bei Bedarf in einer einzelnen Region aufgerufen wird. |
Modellieren Sie die maximale Anzahl an Tokens pro Tag für ${model} |
Pro Modell, pro Region | Die maximale Anzahl von Tokens pro Tag (Eingabe + Ausgabe, kombiniert), die Ihr Konto für das Modell verwenden kann. Standardmäßig ist dieser Wert das Kontingent pro Minute multipliziert mit 24 × 60. Neue Produkte erhalten AWS-Konten möglicherweise reduzierte Kontingente. |
InvokeModel Anfragen pro Minute für ${model} |
Pro Modell, pro Region | Die maximale Anzahl von Inferenzanfragen pro Minute, die Ihr Konto für das Modell einreichen kann. RPM wird für einige Modelle auf dem bedrock-runtime Endpunkt erzwungen und für andere nicht. Die genauen Kontingente, die für Ihr Modell gelten, finden Sie in der Service-Kontingents-Konsole. |
Die TPM-Kontingente für bedrock-runtime Endgeräte zählen Eingabe- und Ausgabetokens zusammen auf ein einzelnes Kontingent pro Modell. Der bedrock-mantle Endpunkt wendet separate Kontingente für Eingabetoken pro Minute und Ausgabetokens pro Minute an. Weitere Informationen finden Sie unter. Kontingente für den Endpunkt „Bedrock-Mantle“
Anmerkung
bedrock-runtimeRPM-Kontingente auf dem Endpunkt sind modellspezifisch. Einige Modelle — zum Beispiel Anthropic Claude Opus 4.7 und Claude Opus 4.8 — haben kein RPM-Kontingent und unterliegen ausschließlich den in diesem Abschnitt beschriebenen tokenbasierten Kontingenten. Bei Modellen, die über ein RPM-Kontingent verfügen, können Sie den genauen Wert in der Konsole Service Quotas einsehen.
Ausgabetokens werden anhand einer modellspezifischen Burndown-Rate in die Kontingentnutzung umgerechnet. Einzelheiten dazu, wie tokenbasierte Kontingente berechnet werden und wie sich der max_tokens Anforderungsparameter auf Abzüge auswirkt, finden Sie unter. So werden Token in Amazon Bedrock gezählt
Verwandte Laufzeitkontingente
Die folgenden Amazon Bedrock-Funktionen werden über den bedrock-runtime Endpunkt bereitgestellt und haben ihre eigenen Kontingente:
-
Benutzerdefinierte Inferenzprofile — Application-defined Inferenzprofile, die ein zugrunde liegendes Modell umfassen. Siehe So richten Sie eine Modellaufrufressource mithilfe von Inferenzprofilen ein.
-
Batch-Inferenz — Asynchrone Inferenzjobs mit großem Volumen. Siehe Verarbeiten mehrerer Prompts mit der Batch-Inferenz.
-
Bereitgestellter Durchsatz — Reservierte Kapazität der Modelleinheit. Siehe Erhöhen Sie die Kapazität für den Modellaufruf mit Provisioned Throughput in Amazon Bedrock.
Diese Kontingente gelten nur für den bedrock-runtime Endpunkt und sind auf dem Endpunkt nicht verfügbar. bedrock-mantle
Beantragen einer Kontingenterhöhung
Die Schritte zur Beantragung einer Kontingenterhöhung für Ihr Konto hängen vom Wert in der Spalte Anpassbar in der Tabelle mit den Kontingenten in Amazon Bedrock Service Quotas ab.
Wichtig
Bevor Sie eine Kontingenterhöhung beantragen, stellen Sie sicher, dass sich das Modell nicht im Lebenszyklusstatus Legacy oder Deprecated befindet. Für Modelle, deren Ausmusterung geplant ist, werden keine Quotenerhöhungen gewährt. Überprüfen Sie den Lebenszyklusstatus des Modells auf der Modelllebenszyklus Seite und ziehen Sie stattdessen eine Migration zum Nachfolgemodell in Betracht.
-
Wenn ein Kontingent mit Ja markiert ist, können Sie es anpassen, indem Sie die Schritte unter Anfordern einer Kontingenterhöhung im Benutzerhandbuch zu Service Quotas befolgen.
-
Für jedes Modell können Sie eine Erhöhung für die folgenden Kontingente gemeinsam anfordern:
-
Cross-Region InvokeModel Tokens pro Minute für
${model} -
On-demand InvokeModel Tokens pro Minute für
${model} -
Max. Anzahl der Token pro Tag für den Modellaufruf
${model}
Um eine Erhöhung für eine beliebige Kombination dieser Kontingente zu beantragen, fordern Sie eine Erhöhung der Cross-Region InvokeModel Tokens pro Minute für das
${model}Kontingent an, indem Sie die Schritte unter Anfrage einer Kontingenterhöhung im Servicekontingents-Benutzerhandbuch befolgen. Sobald Sie dies getan haben, wird sich das Support-Team mit Ihnen in Verbindung setzen und Ihnen die Möglichkeit anbieten, auch die anderen beiden Kontingente zu erhöhen.Anmerkung
Aufgrund der hohen Nachfrage werden Kunden bevorzugt behandelt, deren Datenverkehr das ihnen zugewiesene Kontingent überschreitet. Ihre Anfrage wird möglicherweise abgelehnt, wenn Sie diese Bedingung nicht erfüllen.
-
Informationen zu bedrock-mantle Kontingenterhöhungen finden Sie unterBeantragen einer Kontingenterhöhung.