View a markdown version of this page

基岩地幔端点的配额 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

基岩地幔端点的配额

bedrock-mantle.region.api.aws端点提供OpenAI响应 API、OpenAI聊天完成 API 和 Anthropic Messages API。流向此端点的推理流量由与该终端bedrock-runtime节点不同的配额集控制。

您可以在 S ervice bedrock-mantle Quotas 控制台中查看配额,方法是选择 Amazon Bedrock 作为服务并搜索 B edrock Mantle。要申请提高这些配额中的任何一个,请参阅请求提高配额

配额类型

bedrock-mantle端点上的推理受每个模型的两个配额控制:

每个型号的基岩地幔配额
配额 Scope 说明
基岩地幔每分钟输入代币 ${model} 每个型号、每个区域 您的账户每分钟可以在bedrock-mantle端点上向模型提交的最大输入令牌数量。在该模型的终端节点提供的所有 API 之间共享。
基岩地幔每分钟输出代币 ${model} 每个型号、每个区域 模型每分钟可以在bedrock-mantle终端节点上为您的账户生成的最大输出令牌数量。在该模型的终端节点提供的所有 API 之间共享。
注意

通过提示缓存读取的缓存输入令牌不计入每分钟输入令牌配额。

注意

bedrock-mantle终端节点不强制执行每分钟请求数 (RPM) 配额。限制仅受本节所述的输入和输出令牌配额控制。

如何根据配额评估请求

当您向bedrock-mantle终端节点提交推理请求时,请按以下顺序根据您的配额对其 AWS 进行评估:

  1. 每分钟输入令牌数 — 根据所请求模型的每分钟输入令牌配额检查请求中的输入令牌数加上值max_tokens(如果max_tokens未设置,则为特定于模型的最大值)。如果接受请求会超出配额,则会通过 HTTP 429 响应限制该请求。

  2. 每分钟输出令牌 — 当模型流式传输或生成输出时,输出令牌将计入该模型的每分钟输出令牌配额。如果在生成过程中达到配额,则生成将停止并返回响应,并返回表示截止日期的完成原因。

响应完成后,初始输入令牌预留中任何未使用的部分(与实际输出max_tokens之间的差额)都将补充到您的配额中。

终端节点可能会应用额外的内部速率限制,这在 Service Quotas 中没有公开。使用带有指数退避的重试逻辑来处理瞬态限制。

bedrock-runtime端点的 TPM 配额将输入和输出令牌一起计入每个模型的单个配额,而bedrock-mantle端点则分别应用每分钟输入令牌和每分钟输出令牌配额。如果您在两个端点上运行工作负载,请单独规划每个端点的容量。有关运行时终端节点配额的详细信息,请参阅基底运行时端点的配额

默认配额值

下表列出了bedrock-mantle终端节点上模型的默认配额。新的配额 AWS 账户 可能会减少,配额可能因地区而异。

按型号划分的默认基岩地幔配额
模型 默认输入 TPM 默认输出 TPM
Anthropic克劳德 Opus 4.7 20,000,000 400万个

其他模型在终端上启动时将在此表中列出。

未公布 TPM 配额的型号

bedrock-mantle端点仅对上表中列出的模型强制执行已发布的 TPM 配额。目前,在此端点上提供的其他型号没有在 Service Quotas 中公开每个账户的 TPM 配额——它们的吞吐量受内部服务容量的控制。 AWS 随着使用量的扩展,可能会为其他模型引入按账户配额。使用带有指数退避的重试逻辑来处理瞬态限制。如果您需要特定型号的已发布配额,请联系 Supp AWS ort。

支持的区域:

bedrock-mantle配额在bedrock-mantle终端节点可用 AWS 区域的 Service Quotas 中可见。有关区域和终端节点 URL 的完整列表,请参阅支持的区域和终端节点

请求提高配额

bedrock-mantle配额在 Service Quotas 中可见,但目前未通过 Service Quotas 控制台处理配额增加请求。要申请提高AWS 支持限额,请通过 Support 限额提高表单提交申请,然后选择 Amazon Bedrock 作为服务。在您的请求中,请指定:

  • 端点 (bedrock-mantle)。

  • 区域。

  • 模型。

  • 配额名称(输入 TPM 或输出 TPM)和您请求的值。

您可以在单个支持案例中为同一型号申请增加每分钟输入令牌和每分钟输出令牌。批准取决于您的现有使用量是否证明增加是合理的,因此请在请求中附上来自 Service Q CloudWatch uotas 控制台的最新使用量信息。

与基岩运行时配额的区别

bedrock-mantle配额独立于bedrock-runtime配额。即使调用相同的底层模型,流向bedrock-runtime.region.amazonaws.com和要bedrock-mantle.region.api.aws消耗单独配额分配的流量。

自定义推理配置文件配额、批量推理配额和预配置吞吐量分配仅适用于终端节点,不会在bedrock-runtime终端节点上公开。bedrock-mantle