bedrock-runtime 端點的配額

bedrock-runtime.region.amazonaws.com 端點是 Amazon Bedrock 的主要推論端點。至此端點的推論流量受每個模型字符型配額管理。您可以在 Service Quotas 主控台中檢視這些配額，方法是選取 Amazon Bedrock 做為服務，或在中的 Amazon Bedrock 服務配額表中檢視這些配額 AWS 一般參考。

配額類型

bedrock-runtime 端點上的推論受下列每個模型配額的控管：

bedrock-runtime per-model 配額
配額	Scope (範圍)	說明
`${model}` 的每分鐘跨區域 InvokeModel 字符	每個模型、每個區域	透過跨區域推論設定檔調用時，您的帳戶可用於模型的每分鐘字符數上限（輸入 + 輸出，合併）。
`${model}` 的每分鐘隨需 InvokeModel 字符	每個模型、每個區域	在單一區域中呼叫隨需時，您的帳戶可用於模型的每分鐘字符數上限（輸入 + 輸出，合併）。
`${model}` 的每日模型調用字符上限	每個模型、每個區域	您的帳戶每天可用於模型的字符數量上限（輸入 + 輸出，合併）。根據預設，此值為每分鐘配額乘以 24 × 60。新的 AWS 帳戶可能會減少配額。
$`{model}` 的每分鐘 InvokeModel 請求	每個模型、每個區域	您的帳戶可針對模型提交的每分鐘推論請求數量上限。對`bedrock-runtime`端點上的某些模型而不是其他模型強制執行 RPM；如需適用於模型的確切配額，請參閱 Service Quotas 主控台。

bedrock-runtime 端點 TPM 配額根據單一每模型配額將輸入和輸出字符計算在一起。bedrock-mantle 端點會套用個別的 input-tokens-per-minute 和 output-tokens-per-minute 配額；如需詳細資訊，請參閱 bedrock-mantle 端點的配額。

注意

bedrock-runtime 端點上的 RPM 配額是模型特定的。某些模型 – 例如Anthropic，Claude Opus 4.7 和 Claude Opus 4.8 – 沒有 RPM 配額，並且僅受本節中描述的字符型配額控制。對於具有 RPM 配額的模型，請在 Service Quotas 主控台中檢視確切的值。

輸出字符會透過特定模型的縮減率轉換為配額用量。如需如何計算字符型配額以及max_tokens請求參數如何影響扣除的詳細資訊，請參閱 Amazon Bedrock 字符的計數方式。

請求提高配額

請求提高帳戶配額的步驟取決於 Amazon Bedrock 服務配額中配額表中可調整欄中的值。

重要

在請求提高配額之前，請確認模型未處於舊版或已棄用生命週期狀態。配額增加不會授予排程淘汰的模型。在頁面上檢查模型的生命週期狀態模型生命週期，並考慮改為遷移至後續模型。

如果配額標示為是，您可以依照《Service Quotas 使用者指南》中請求提高配額的步驟進行調整。
對於任何模型，您皆可一起請求提高下列配額：
- ${model} 的每分鐘跨區域 InvokeModel 字符
- ${model} 的每分鐘隨需 InvokeModel 字符
- ${model} 的每日模型調用字符上限
若要請求提高這些配額的任意組合，請遵循《Service Quotas 使用者指南》中請求提高配額的步驟，請求提高 ${model} 的每分鐘跨區域 InvokeModel 字符配額。這麼做之後，支援團隊會與您聯絡，並提供您同時提高其他兩個配額的選項。

注意
由於需求量龐大，將優先考慮所產生流量足以消耗其現有配額配置的客戶。如果您不符合此條件，可能會拒絕您的請求。

如需增加bedrock-mantle配額的詳細資訊，請參閱請求提高配額。

文件慣用形式

CountTokens API

bedrock-mantle 配額

bedrock-runtime 端點的配額

配額類型

注意

相關的執行期配額

請求提高配額

重要

注意