翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
bedrock-runtime エンドポイントのクォータ
bedrock-runtime. エンドポイントは、Amazon Bedrock の主要な推論エンドポイントです。このエンドポイントへの推論トラフィックは、モデルごとのトークンベースのクォータによって管理されます。これらのクォータは、Service Quotas コンソールで Amazon Bedrock をサービスとして選択するか、 の Amazon Bedrock サービスクォータテーブルで表示できます AWS 全般のリファレンス。region.amazonaws.com
クォータタイプ
bedrock-runtime エンドポイントの推論は、次のモデルごとのクォータによって管理されます。
| クォータ | スコープ | 説明 |
|---|---|---|
${model} の 1 分あたりのクロスリージョン InvokeModel トークン |
モデルごと、リージョンごと | クロスリージョン推論プロファイルを介して呼び出されたときにアカウントがモデルに使用できる 1 分あたりのトークンの最大数 (入力 + 出力、合計)。 |
${model} の 1 分あたりのオンデマンド InvokeModel トークン |
モデルごと、リージョンごと | 1 つのリージョンでオンデマンドで呼び出されたときにアカウントがモデルに使用できる 1 分あたりのトークンの最大数 (入力 + 出力の合計)。 |
${model} の 1 日あたりのモデル呼び出しの最大トークン数 |
モデルごと、リージョンごと | アカウントがモデルに使用できる 1 日あたりのトークンの最大数 (入力 + 出力の合計)。デフォルトでは、この値は 1 分あたりのクォータに 24 × 60 を掛けたものです。新しい AWS アカウント では、クォータが削減される可能性があります。 |
${model} の 1 分あたりの InvokeModel リクエスト |
モデルごと、リージョンごと | アカウントがモデルに送信できる 1 分あたりの推論リクエストの最大数。RPM は、他のモデルではなく、bedrock-runtimeエンドポイント上の一部のモデルに適用されます。モデルに適用される正確なクォータについては、Service Quotas コンソールを参照してください。 |
bedrock-runtime エンドポイント TPM クォータは、入力トークンと出力トークンをモデルごとの 1 つのクォータに対してカウントします。bedrock-mantle エンドポイントは、1 input-tokens-per-minute output-tokens-per-minute 「」を参照してくださいbedrock-mantle エンドポイントのクォータ。
注記
bedrock-runtime エンドポイントの RPM クォータはモデル固有です。Anthropic Claude Opus 4.7 や Claude Opus 4.8 などの一部のモデルには RPM クォータがなく、このセクションで説明するトークンベースのクォータによってのみ管理されます。RPM クォータを持つモデルの場合は、Service Quotas コンソールで正確な値を表示します。
出力トークンは、モデル固有のバーンダウンレートを通じてクォータ使用量に変換されます。トークンベースのクォータの計算方法と、max_tokensリクエストパラメータが控除に与える影響の詳細については、「」を参照してくださいAmazon Bedrock でのトークンのカウント方法。
関連するランタイムクォータ
次の Amazon Bedrock 機能はbedrock-runtimeエンドポイントを介して提供され、独自のクォータがあります。
-
カスタム推論プロファイル – 基盤となるモデルをラップするアプリケーション定義の推論プロファイル。「推論プロファイルを使用してモデル呼び出しリソースを設定する」を参照してください。
-
バッチ推論 – 非同期の大容量推論ジョブ。「バッチ推論を使用して複数のプロンプトを処理する」を参照してください。
-
プロビジョンドスループット – リザーブドモデルユニット容量。「Amazon Bedrock のプロビジョンドスループットでモデル呼び出し容量を増やす」を参照してください。
これらのクォータはbedrock-runtimeエンドポイントにのみ適用され、bedrock-mantleエンドポイントでは公開されません。
クォータ引き上げのリクエスト
アカウントのクォータ引き上げをリクエストする手順は、Amazon Bedrock サービスクォータのクォータテーブルのアジャスタブル列の値によって異なります。
重要
クォータの引き上げをリクエストする前に、モデルがレガシーまたは非推奨のライフサイクルステータスになっていないことを確認します。クォータの引き上げは、廃止が予定されているモデルには付与されません。モデルのライフサイクル ページでモデルのライフサイクルステータスを確認し、代わりに後継モデルへの移行を検討してください。
-
はいとマークされているクォータは、「Service Quotas ユーザーガイド」の「クォータ引き上げのリクエスト」の手順に従って調整できます。
-
いずれのモデルでも、以下のクォータをまとめて引き上げをリクエストできます。
-
${model}の 1 分あたりのクロスリージョン InvokeModel トークン -
${model}の 1 分あたりのオンデマンド InvokeModel トークン -
${model}の 1 日あたりのモデル呼び出しの最大トークン数
これらのクォータの任意の組み合わせの引き上げをリクエストするには、「Service Quotas ユーザーガイド」の「クォータ引き上げのリクエスト」の手順に従って、
${model}のクロスリージョン InvokeModel トークン数/分のクォータの引き上げをリクエストします。その後、サポートチームが連絡し、他の 2 つのクォータも引き上げるオプションを提供します。注記
圧倒的な需要により、既存のクォータ割り当てを消費するトラフィックを生成するお客様に優先権が与えられます。この条件を満たしていない場合、リクエストは拒否されることがあります。
-
bedrock-mantle クォータの引き上げについては、「」を参照してくださいクォータ引き上げのリクエスト。