bedrock-runtime エンドポイントのクォータ

bedrock-runtime.region.amazonaws.com エンドポイントは、Amazon Bedrock の主要な推論エンドポイントです。このエンドポイントへの推論トラフィックは、モデルごとのトークンベースのクォータによって管理されます。これらのクォータは、Service Quotas コンソールで Amazon Bedrock をサービスとして選択するか、の Amazon Bedrock サービスクォータテーブルで表示できます AWS 全般のリファレンス。

クォータタイプ

bedrock-runtime エンドポイントの推論は、次のモデルごとのクォータによって管理されます。

モデルあたりの bedrock-runtime クォータ
クォータ	スコープ	説明
`${model}` の 1 分あたりのクロスリージョン InvokeModel トークン	モデルごと、リージョンごと	クロスリージョン推論プロファイルを介して呼び出されたときにアカウントがモデルに使用できる 1 分あたりのトークンの最大数 (入力 + 出力、合計）。
`${model}` の 1 分あたりのオンデマンド InvokeModel トークン	モデルごと、リージョンごと	1 つのリージョンでオンデマンドで呼び出されたときにアカウントがモデルに使用できる 1 分あたりのトークンの最大数 (入力 + 出力の合計）。
`${model}` の 1 日あたりのモデル呼び出しの最大トークン数	モデルごと、リージョンごと	アカウントがモデルに使用できる 1 日あたりのトークンの最大数 (入力 + 出力の合計）。デフォルトでは、この値は 1 分あたりのクォータに 24 × 60 を掛けたものです。新しい AWS アカウントでは、クォータが削減される可能性があります。
`${model}` の 1 分あたりの InvokeModel リクエスト	モデルごと、リージョンごと	アカウントがモデルに送信できる 1 分あたりの推論リクエストの最大数。RPM は、他のモデルではなく、`bedrock-runtime`エンドポイント上の一部のモデルに適用されます。モデルに適用される正確なクォータについては、Service Quotas コンソールを参照してください。

bedrock-runtime エンドポイント TPM クォータは、入力トークンと出力トークンをモデルごとの 1 つのクォータに対してカウントします。bedrock-mantle エンドポイントは、1 input-tokens-per-minute output-tokens-per-minute 「」を参照してくださいbedrock-mantle エンドポイントのクォータ。

注記

bedrock-runtime エンドポイントの RPM クォータはモデル固有です。Anthropic Claude Opus 4.7 や Claude Opus 4.8 などの一部のモデルには RPM クォータがなく、このセクションで説明するトークンベースのクォータによってのみ管理されます。RPM クォータを持つモデルの場合は、Service Quotas コンソールで正確な値を表示します。

出力トークンは、モデル固有のバーンダウンレートを通じてクォータ使用量に変換されます。トークンベースのクォータの計算方法と、max_tokensリクエストパラメータが控除に与える影響の詳細については、「」を参照してくださいAmazon Bedrock でのトークンのカウント方法。

クォータ引き上げのリクエスト

アカウントのクォータ引き上げをリクエストする手順は、Amazon Bedrock サービスクォータのクォータテーブルのアジャスタブル列の値によって異なります。

重要

クォータの引き上げをリクエストする前に、モデルがレガシーまたは非推奨のライフサイクルステータスになっていないことを確認します。クォータの引き上げは、廃止が予定されているモデルには付与されません。モデルのライフサイクルページでモデルのライフサイクルステータスを確認し、代わりに後継モデルへの移行を検討してください。

はいとマークされているクォータは、「Service Quotas ユーザーガイド」の「クォータ引き上げのリクエスト」の手順に従って調整できます。
いずれのモデルでも、以下のクォータをまとめて引き上げをリクエストできます。
- ${model} の 1 分あたりのクロスリージョン InvokeModel トークン
- ${model} の 1 分あたりのオンデマンド InvokeModel トークン
- ${model} の 1 日あたりのモデル呼び出しの最大トークン数
これらのクォータの任意の組み合わせの引き上げをリクエストするには、「Service Quotas ユーザーガイド」の「クォータ引き上げのリクエスト」の手順に従って、${model} のクロスリージョン InvokeModel トークン数/分のクォータの引き上げをリクエストします。その後、サポートチームが連絡し、他の 2 つのクォータも引き上げるオプションを提供します。

注記
圧倒的な需要により、既存のクォータ割り当てを消費するトラフィックを生成するお客様に優先権が与えられます。この条件を満たしていない場合、リクエストは拒否されることがあります。

bedrock-mantle クォータの引き上げについては、「」を参照してくださいクォータ引き上げのリクエスト。

ドキュメントの表記規則

CountTokens API

bedrock-mantle クォータ

bedrock-runtime エンドポイントのクォータ

クォータタイプ

注記

関連するランタイムクォータ

クォータ引き上げのリクエスト

重要

注記