View a markdown version of this page

bedrock-runtime エンドポイントのクォータ - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

bedrock-runtime エンドポイントのクォータ

bedrock-runtime.region.amazonaws.com エンドポイントは、Amazon Bedrock の主要な推論エンドポイントです。このエンドポイントへの推論トラフィックは、モデルごとのトークンベースのクォータによって管理されます。これらのクォータは、Service Quotas コンソールAmazon Bedrock をサービスとして選択するか、 の Amazon Bedrock サービスクォータテーブルで表示できます AWS 全般のリファレンス。

クォータタイプ

bedrock-runtime エンドポイントの推論は、次のモデルごとのクォータによって管理されます。

モデルあたりの bedrock-runtime クォータ
クォータ スコープ 説明
${model} の 1 分あたりのクロスリージョン InvokeModel トークン モデルごと、リージョンごと クロスリージョン推論プロファイルを介して呼び出されたときにアカウントがモデルに使用できる 1 分あたりのトークンの最大数 (入力 + 出力、合計)。
${model} の 1 分あたりのオンデマンド InvokeModel トークン モデルごと、リージョンごと 1 つのリージョンでオンデマンドで呼び出されたときにアカウントがモデルに使用できる 1 分あたりのトークンの最大数 (入力 + 出力の合計)。
${model} の 1 日あたりのモデル呼び出しの最大トークン数 モデルごと、リージョンごと アカウントがモデルに使用できる 1 日あたりのトークンの最大数 (入力 + 出力の合計)。デフォルトでは、この値は 1 分あたりのクォータに 24 × 60 を掛けたものです。新しい AWS アカウント では、クォータが削減される可能性があります。
${model} の 1 分あたりの InvokeModel リクエスト モデルごと、リージョンごと アカウントがモデルに送信できる 1 分あたりの推論リクエストの最大数。RPM は、他のモデルではなく、bedrock-runtimeエンドポイント上の一部のモデルに適用されます。モデルに適用される正確なクォータについては、Service Quotas コンソールを参照してください。

bedrock-runtime エンドポイント TPM クォータは、入力トークンと出力トークンをモデルごとの 1 つのクォータに対してカウントします。bedrock-mantle エンドポイントは、1 input-tokens-per-minute output-tokens-per-minute 「」を参照してくださいbedrock-mantle エンドポイントのクォータ

注記

bedrock-runtime エンドポイントの RPM クォータはモデル固有です。Anthropic Claude Opus 4.7 や Claude Opus 4.8 などの一部のモデルには RPM クォータがなく、このセクションで説明するトークンベースのクォータによってのみ管理されます。RPM クォータを持つモデルの場合は、Service Quotas コンソールで正確な値を表示します。

出力トークンは、モデル固有のバーンダウンレートを通じてクォータ使用量に変換されます。トークンベースのクォータの計算方法と、max_tokensリクエストパラメータが控除に与える影響の詳細については、「」を参照してくださいAmazon Bedrock でのトークンのカウント方法

関連するランタイムクォータ

次の Amazon Bedrock 機能はbedrock-runtimeエンドポイントを介して提供され、独自のクォータがあります。

これらのクォータはbedrock-runtimeエンドポイントにのみ適用され、bedrock-mantleエンドポイントでは公開されません。

クォータ引き上げのリクエスト

アカウントのクォータ引き上げをリクエストする手順は、Amazon Bedrock サービスクォータのクォータテーブルのアジャスタブル列の値によって異なります。

重要

クォータの引き上げをリクエストする前に、モデルがレガシーまたは非推奨のライフサイクルステータスになっていないことを確認します。クォータの引き上げは、廃止が予定されているモデルには付与されません。モデルのライフサイクル ページでモデルのライフサイクルステータスを確認し、代わりに後継モデルへの移行を検討してください。

  • はいとマークされているクォータは、「Service Quotas ユーザーガイド」の「クォータ引き上げのリクエスト」の手順に従って調整できます。

  • いずれのモデルでも、以下のクォータをまとめて引き上げをリクエストできます。

    • ${model} の 1 分あたりのクロスリージョン InvokeModel トークン

    • ${model} の 1 分あたりのオンデマンド InvokeModel トークン

    • ${model} の 1 日あたりのモデル呼び出しの最大トークン数

    これらのクォータの任意の組み合わせの引き上げをリクエストするには、「Service Quotas ユーザーガイド」の「クォータ引き上げのリクエスト」の手順に従って、${model}クロスリージョン InvokeModel トークン数/分のクォータの引き上げをリクエストします。その後、サポートチームが連絡し、他の 2 つのクォータも引き上げるオプションを提供します。

    注記

    圧倒的な需要により、既存のクォータ割り当てを消費するトラフィックを生成するお客様に優先権が与えられます。この条件を満たしていない場合、リクエストは拒否されることがあります。

bedrock-mantle クォータの引き上げについては、「」を参照してくださいクォータ引き上げのリクエスト