View a markdown version of this page

bedrock-runtime 端點的配額 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

bedrock-runtime 端點的配額

bedrock-runtime.region.amazonaws.com 端點是 Amazon Bedrock 的主要推論端點。至此端點的推論流量受每個模型字符型配額管理。您可以在 Service Quotas 主控台中檢視這些配額,方法是選取 Amazon Bedrock 做為服務,或在 中的 Amazon Bedrock 服務配額表中檢視這些配額 AWS 一般參考。

配額類型

bedrock-runtime 端點上的推論受下列每個模型配額的控管:

bedrock-runtime per-model 配額
配額 Scope (範圍) 說明
${model} 的每分鐘跨區域 InvokeModel 字符 每個模型、每個區域 透過跨區域推論設定檔調用時,您的帳戶可用於模型的每分鐘字符數上限 (輸入 + 輸出,合併)。
${model} 的每分鐘隨需 InvokeModel 字符 每個模型、每個區域 在單一區域中呼叫隨需時,您的帳戶可用於模型的每分鐘字符數上限 (輸入 + 輸出,合併)。
${model} 的每日模型調用字符上限 每個模型、每個區域 您的帳戶每天可用於模型的字符數量上限 (輸入 + 輸出,合併)。根據預設,此值為每分鐘配額乘以 24 × 60。新的 AWS 帳戶 可能會減少配額。
${model} 的每分鐘 InvokeModel 請求 每個模型、每個區域 您的帳戶可針對模型提交的每分鐘推論請求數量上限。對bedrock-runtime端點上的某些模型而不是其他模型強制執行 RPM;如需適用於模型的確切配額,請參閱 Service Quotas 主控台。

bedrock-runtime 端點 TPM 配額根據單一每模型配額將輸入和輸出字符計算在一起。bedrock-mantle 端點會套用個別的 input-tokens-per-minute 和 output-tokens-per-minute 配額;如需詳細資訊,請參閱 bedrock-mantle 端點的配額

注意

bedrock-runtime 端點上的 RPM 配額是模型特定的。某些模型 – 例如Anthropic,Claude Opus 4.7 和 Claude Opus 4.8 – 沒有 RPM 配額,並且僅受本節中描述的字符型配額控制。對於具有 RPM 配額的模型,請在 Service Quotas 主控台中檢視確切的值。

輸出字符會透過特定模型的縮減率轉換為配額用量。如需如何計算字符型配額以及max_tokens請求參數如何影響扣除的詳細資訊,請參閱 Amazon Bedrock 字符的計數方式

相關的執行期配額

下列 Amazon Bedrock 功能會透過bedrock-runtime端點提供,並有自己的個別配額:

這些配額僅適用於bedrock-runtime端點,且不會在bedrock-mantle端點上公開。

請求提高配額

請求提高帳戶配額的步驟取決於 Amazon Bedrock 服務配額中配額表中可調整欄中的值。

重要

在請求提高配額之前,請確認模型未處於舊版已棄用生命週期狀態。配額增加不會授予排程淘汰的模型。在頁面上檢查模型的生命週期狀態模型生命週期,並考慮改為遷移至後續模型。

  • 如果配額標示為,您可以依照《Service Quotas 使用者指南》中請求提高配額的步驟進行調整。

  • 對於任何模型,您皆可一起請求提高下列配額:

    • ${model} 的每分鐘跨區域 InvokeModel 字符

    • ${model} 的每分鐘隨需 InvokeModel 字符

    • ${model} 的每日模型調用字符上限

    若要請求提高這些配額的任意組合,請遵循《Service Quotas 使用者指南》中請求提高配額的步驟,請求提高 ${model} 的每分鐘跨區域 InvokeModel 字符配額。這麼做之後,支援團隊會與您聯絡,並提供您同時提高其他兩個配額的選項。

    注意

    由於需求量龐大,將優先考慮所產生流量足以消耗其現有配額配置的客戶。如果您不符合此條件,可能會拒絕您的請求。

如需增加bedrock-mantle配額的詳細資訊,請參閱 請求提高配額