할당량 유형 할당량에 대해 요청을 평가하는 방법 기본 할당량 값 지원되는 리전:할당량 증가 요청 bedrock-runtime 할당량과의 차이점

bedrock-mantle 엔드포인트 할당량

bedrock-mantle.region.api.aws 엔드포인트는 OpenAI 응답 API, OpenAI 채팅 완료 API 및 Anthropic Messages API를 제공합니다. 이 엔드포인트에 대한 추론 트래픽은 bedrock-runtime 엔드포인트와 별도의 할당량 집합에 의해 관리됩니다.

Service Quotas 콘솔에서 Amazon Bedrock을 서비스로 선택하고 Bedrock Mantle을 검색하여 bedrock-mantle 할당량을 볼 수 있습니다. 이러한 할당량 증가를 요청하려면 섹션을 참조하세요할당량 증가 요청.

할당량 유형

bedrock-mantle 엔드포인트에 대한 추론은 모델당 할당량 2개로 관리됩니다.

bedrock-mantle 모델당 할당량
할당량	Scope	설명
`${model}`에 대한 분당 Bedrock Mantle 입력 토큰	모델별, 리전별	계정이 `bedrock-mantle` 엔드포인트의 모델에 제출할 수 있는 분당 최대 입력 토큰 수입니다. 해당 모델의 엔드포인트에서 제공하는 모든 APIs에서 공유됩니다.
`${model}`에 대한 분당 Bedrock Mantle 출력 토큰	모델별, 리전별	모델이 `bedrock-mantle` 엔드포인트의 계정에 대해 생성할 수 있는 분당 최대 출력 토큰 수입니다. 해당 모델의 엔드포인트에서 제공하는 모든 APIs에서 공유됩니다.

참고

프롬프트 캐싱을 통해 읽은 캐싱된 입력 토큰은 input-tokens-per-minute 할당량에 포함되지 않습니다.

참고

bedrock-mantle 엔드포인트는 requests-per-minute 수(RPM) 할당량을 적용하지 않습니다. 조절은이 섹션에 설명된 입력 및 출력 토큰 할당량에 의해서만 관리됩니다.

할당량에 대해 요청을 평가하는 방법

bedrock-mantle 엔드포인트에 추론 요청을 제출하면는 다음 순서로 할당량과 비교하여 추론 요청을 AWS 평가합니다.

분당 입력 토큰 - 요청의 입력 토큰 수와 값max_tokens(또는 max_tokens가 설정되지 않은 경우 모델별 최대값)을 요청된 모델의 input-tokens-per-minute 할당량과 비교하여 확인합니다. 요청을 허용하는 것이 할당량을 초과하는 경우 HTTP 429 응답으로 요청이 제한됩니다.
분당 출력 토큰 - 모델이 출력을 스트리밍하거나 생성하면 해당 모델의 output-tokens-per-minute 할당량에 대해 출력 토큰이 계산됩니다. 생성 중에 할당량에 도달하면 생성이 중지되고 응답이 컷오프를 나타내는 완료 이유와 함께 반환됩니다.

응답이 완료되면 초기 입력 토큰 예약의 미사용 부분(max_tokens와 실제 출력 간의 차이)이 할당량에 보충됩니다.

엔드포인트는 Service Quotas에 노출되지 않는 추가 내부 속도 제한을 적용할 수 있습니다. 지수 백오프와 함께 재시도 로직을 사용하여 일시적인 제한을 처리합니다.

bedrock-runtime 엔드포인트의 TPM 할당량은 단일 모델당 할당량에 대해 입력 토큰과 출력 토큰을 함께 계산하는 반면, bedrock-mantle 엔드포인트는 별도의 input-tokens-per-minute 수 및 output-tokens-per-minute 할당량을 적용합니다. 두 엔드포인트 모두에서 워크로드를 실행하는 경우 각 엔드포인트의 용량을 독립적으로 계획합니다. 런타임 엔드포인트의 할당량에 대한 자세한 내용은 섹션을 참조하세요bedrock-runtime 엔드포인트 할당량.

기본 할당량 값

다음 표에는 bedrock-mantle 엔드포인트의 모델에 대한 기본 할당량이 나열되어 있습니다. 새 AWS 계정 는 축소된 할당량을 받을 수 있으며 할당량은 리전에 따라 다를 수 있습니다.

모델별 기본 bedrock-mantle 할당량
모델	기본 입력 TPM	기본 출력 TPM
Anthropic Claude Opus 4.7	20,000,000	4,000,000

추가 모델은 엔드포인트에서 시작될 때이 표에 나열됩니다.

게시된 TPM 할당량이 없는 모델

bedrock-mantle 엔드포인트는 위 표에 나열된 모델에 대해서만 게시된 TPM 할당량을 적용합니다. 이 엔드포인트에서 제공되는 다른 모델에는 현재 Service Quotas에 노출된 계정당 TPM 할당량이 없습니다. 처리량은 내부 서비스 용량에 의해 관리됩니다. 사용 규모에 따라 추가 모델에 대한 계정당 할당량이 도입될 수 AWS 있습니다. 지수 백오프와 함께 재시도 로직을 사용하여 일시적인 제한을 처리합니다. 특정 모델에 대해 게시된 할당량이 필요한 경우 AWS Support에 문의하세요.

지원되는 리전:

bedrock-mantle 할당량은 bedrock-mantle 엔드포인트를 사용할 수 있는 리전과 동일한 AWS 리전의 Service Quotas에 표시됩니다. 리전 및 엔드포인트 URLs의 전체 목록은 섹션을 참조하세요지원되는 리전 및 엔드포인트.

할당량 증가 요청

bedrock-mantle 할당량은 Service Quotas에 표시되지만 할당량 증가 요청은 현재 Service Quotas 콘솔을 통해 처리되지 않습니다. 증가를 요청하려면 AWS 지원 한도 증가 양식을 통해 요청을 제출하고 Amazon Bedrock을 서비스로 선택합니다. 요청에서 다음을 지정합니다.

엔드포인트(bedrock-mantle).
리전입니다.
모델.
할당량 이름(입력 TPM 또는 출력 TPM) 및 요청 중인 값입니다.

단일 지원 사례에서 동일한 모델에 대해 input-tokens-per-minute 및 output-tokens-per-minute 증가를 요청할 수 있습니다. 승인은 기존 사용량이 증가를 정당화하는지 여부에 따라 달라지므로 요청에 CloudWatch 또는 Service Quotas 콘솔의 최근 사용 정보를 포함합니다.

bedrock-runtime 할당량과의 차이점

bedrock-mantle 할당량은 할당bedrock-runtime량과 독립적입니다. 동일한 기본 모델을 호출하는 경우에도에 대한 트래픽bedrock-runtime.region.amazonaws.com과에 대한 트래픽은 별도의 할당량 할당을 bedrock-mantle.region.api.aws 사용합니다.

사용자 지정 추론 프로필 할당량, 배치 추론 할당량 및 프로비저닝된 처리량 할당은 bedrock-runtime 엔드포인트에만 적용되며 bedrock-mantle 엔드포인트에는 노출되지 않습니다.

문서 규칙

bedrock-runtime 할당량

할당량 증가 요청