本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
bedrock-runtime 端點的配額
bedrock-runtime. 端點是 Amazon Bedrock 的主要推論端點。至此端點的推論流量受每個模型字符型配額管理。您可以在 Service Quotas 主控台中檢視這些配額,方法是選取 Amazon Bedrock 做為服務,或在 中的 Amazon Bedrock 服務配額表中檢視這些配額 AWS 一般參考。region.amazonaws.com
配額類型
bedrock-runtime 端點上的推論受下列每個模型配額的控管:
| 配額 | Scope (範圍) | 說明 |
|---|---|---|
${model} 的每分鐘跨區域 InvokeModel 字符 |
每個模型、每個區域 | 透過跨區域推論設定檔調用時,您的帳戶可用於模型的每分鐘字符數上限 (輸入 + 輸出,合併)。 |
${model} 的每分鐘隨需 InvokeModel 字符 |
每個模型、每個區域 | 在單一區域中呼叫隨需時,您的帳戶可用於模型的每分鐘字符數上限 (輸入 + 輸出,合併)。 |
${model} 的每日模型調用字符上限 |
每個模型、每個區域 | 您的帳戶每天可用於模型的字符數量上限 (輸入 + 輸出,合併)。根據預設,此值為每分鐘配額乘以 24 × 60。新的 AWS 帳戶 可能會減少配額。 |
${model} 的每分鐘 InvokeModel 請求 |
每個模型、每個區域 | 您的帳戶可針對模型提交的每分鐘推論請求數量上限。對bedrock-runtime端點上的某些模型而不是其他模型強制執行 RPM;如需適用於模型的確切配額,請參閱 Service Quotas 主控台。 |
bedrock-runtime 端點 TPM 配額根據單一每模型配額將輸入和輸出字符計算在一起。bedrock-mantle 端點會套用個別的 input-tokens-per-minute 和 output-tokens-per-minute 配額;如需詳細資訊,請參閱 bedrock-mantle 端點的配額。
注意
bedrock-runtime 端點上的 RPM 配額是模型特定的。某些模型 – 例如Anthropic,Claude Opus 4.7 和 Claude Opus 4.8 – 沒有 RPM 配額,並且僅受本節中描述的字符型配額控制。對於具有 RPM 配額的模型,請在 Service Quotas 主控台中檢視確切的值。
輸出字符會透過特定模型的縮減率轉換為配額用量。如需如何計算字符型配額以及max_tokens請求參數如何影響扣除的詳細資訊,請參閱 Amazon Bedrock 字符的計數方式。
相關的執行期配額
下列 Amazon Bedrock 功能會透過bedrock-runtime端點提供,並有自己的個別配額:
-
自訂推論描述檔 – 包裝基礎模型的應用程式定義推論描述檔。請參閱 使用推論設定檔設定模型調用資源。
-
批次推論 – 非同步、大量推論任務。請參閱 使用批次推論處理多個提示。
-
佈建輸送量 – 預留模型單位容量。請參閱 使用 Amazon Bedrock 中的佈建輸送量增加模型調用容量。
這些配額僅適用於bedrock-runtime端點,且不會在bedrock-mantle端點上公開。
請求提高配額
請求提高帳戶配額的步驟取決於 Amazon Bedrock 服務配額中配額表中可調整欄中的值。
重要
在請求提高配額之前,請確認模型未處於舊版或已棄用生命週期狀態。配額增加不會授予排程淘汰的模型。在頁面上檢查模型的生命週期狀態模型生命週期,並考慮改為遷移至後續模型。
-
如果配額標示為是,您可以依照《Service Quotas 使用者指南》中請求提高配額的步驟進行調整。
-
對於任何模型,您皆可一起請求提高下列配額:
-
${model}的每分鐘跨區域 InvokeModel 字符 -
${model}的每分鐘隨需 InvokeModel 字符 -
${model}的每日模型調用字符上限
若要請求提高這些配額的任意組合,請遵循《Service Quotas 使用者指南》中請求提高配額的步驟,請求提高
${model}的每分鐘跨區域 InvokeModel 字符配額。這麼做之後,支援團隊會與您聯絡,並提供您同時提高其他兩個配額的選項。注意
由於需求量龐大,將優先考慮所產生流量足以消耗其現有配額配置的客戶。如果您不符合此條件,可能會拒絕您的請求。
-
如需增加bedrock-mantle配額的詳細資訊,請參閱 請求提高配額。