기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
bedrock-mantle 엔드포인트 할당량
bedrock-mantle. 엔드포인트는 OpenAI 응답 API, OpenAI 채팅 완료 API 및 Anthropic Messages API를 제공합니다. 이 엔드포인트에 대한 추론 트래픽은 region.api.awsbedrock-runtime 엔드포인트와 별도의 할당량 집합에 의해 관리됩니다.
Service Quotas 콘솔에서 Amazon Bedrock을 서비스로 선택하고 Bedrock Mantle을 검색하여 bedrock-mantle 할당량을 볼 수 있습니다. 이러한 할당량 증가를 요청하려면 섹션을 참조하세요할당량 증가 요청.
할당량 유형
bedrock-mantle 엔드포인트에 대한 추론은 모델당 할당량 2개로 관리됩니다.
| 할당량 | Scope | 설명 |
|---|---|---|
${model}에 대한 분당 Bedrock Mantle 입력 토큰 |
모델별, 리전별 | 계정이 bedrock-mantle 엔드포인트의 모델에 제출할 수 있는 분당 최대 입력 토큰 수입니다. 해당 모델의 엔드포인트에서 제공하는 모든 APIs에서 공유됩니다. |
${model}에 대한 분당 Bedrock Mantle 출력 토큰 |
모델별, 리전별 | 모델이 bedrock-mantle 엔드포인트의 계정에 대해 생성할 수 있는 분당 최대 출력 토큰 수입니다. 해당 모델의 엔드포인트에서 제공하는 모든 APIs에서 공유됩니다. |
참고
프롬프트 캐싱을 통해 읽은 캐싱된 입력 토큰은 input-tokens-per-minute 할당량에 포함되지 않습니다.
참고
bedrock-mantle 엔드포인트는 requests-per-minute 수(RPM) 할당량을 적용하지 않습니다. 조절은이 섹션에 설명된 입력 및 출력 토큰 할당량에 의해서만 관리됩니다.
할당량에 대해 요청을 평가하는 방법
bedrock-mantle 엔드포인트에 추론 요청을 제출하면는 다음 순서로 할당량과 비교하여 추론 요청을 AWS 평가합니다.
-
분당 입력 토큰 - 요청의 입력 토큰 수와 값
max_tokens(또는max_tokens가 설정되지 않은 경우 모델별 최대값)을 요청된 모델의 input-tokens-per-minute 할당량과 비교하여 확인합니다. 요청을 허용하는 것이 할당량을 초과하는 경우 HTTP 429 응답으로 요청이 제한됩니다. -
분당 출력 토큰 - 모델이 출력을 스트리밍하거나 생성하면 해당 모델의 output-tokens-per-minute 할당량에 대해 출력 토큰이 계산됩니다. 생성 중에 할당량에 도달하면 생성이 중지되고 응답이 컷오프를 나타내는 완료 이유와 함께 반환됩니다.
응답이 완료되면 초기 입력 토큰 예약의 미사용 부분(max_tokens와 실제 출력 간의 차이)이 할당량에 보충됩니다.
엔드포인트는 Service Quotas에 노출되지 않는 추가 내부 속도 제한을 적용할 수 있습니다. 지수 백오프와 함께 재시도 로직을 사용하여 일시적인 제한을 처리합니다.
bedrock-runtime 엔드포인트의 TPM 할당량은 단일 모델당 할당량에 대해 입력 토큰과 출력 토큰을 함께 계산하는 반면, bedrock-mantle 엔드포인트는 별도의 input-tokens-per-minute 수 및 output-tokens-per-minute 할당량을 적용합니다. 두 엔드포인트 모두에서 워크로드를 실행하는 경우 각 엔드포인트의 용량을 독립적으로 계획합니다. 런타임 엔드포인트의 할당량에 대한 자세한 내용은 섹션을 참조하세요bedrock-runtime 엔드포인트 할당량.
기본 할당량 값
다음 표에는 bedrock-mantle 엔드포인트의 모델에 대한 기본 할당량이 나열되어 있습니다. 새 AWS 계정 는 축소된 할당량을 받을 수 있으며 할당량은 리전에 따라 다를 수 있습니다.
| 모델 | 기본 입력 TPM | 기본 출력 TPM |
|---|---|---|
| Anthropic Claude Opus 4.7 | 20,000,000 | 4,000,000 |
추가 모델은 엔드포인트에서 시작될 때이 표에 나열됩니다.
게시된 TPM 할당량이 없는 모델
bedrock-mantle 엔드포인트는 위 표에 나열된 모델에 대해서만 게시된 TPM 할당량을 적용합니다. 이 엔드포인트에서 제공되는 다른 모델에는 현재 Service Quotas에 노출된 계정당 TPM 할당량이 없습니다. 처리량은 내부 서비스 용량에 의해 관리됩니다. 사용 규모에 따라 추가 모델에 대한 계정당 할당량이 도입될 수 AWS 있습니다. 지수 백오프와 함께 재시도 로직을 사용하여 일시적인 제한을 처리합니다. 특정 모델에 대해 게시된 할당량이 필요한 경우 AWS Support에 문의하세요.
지원되는 리전:
bedrock-mantle 할당량은 bedrock-mantle 엔드포인트를 사용할 수 있는 리전과 동일한 AWS 리전의 Service Quotas에 표시됩니다. 리전 및 엔드포인트 URLs의 전체 목록은 섹션을 참조하세요지원되는 리전 및 엔드포인트.
할당량 증가 요청
bedrock-mantle 할당량은 Service Quotas에 표시되지만 할당량 증가 요청은 현재 Service Quotas 콘솔을 통해 처리되지 않습니다. 증가를 요청하려면 AWS 지원 한도 증가 양식을
-
엔드포인트(
bedrock-mantle). -
리전입니다.
-
모델.
-
할당량 이름(입력 TPM 또는 출력 TPM) 및 요청 중인 값입니다.
단일 지원 사례에서 동일한 모델에 대해 input-tokens-per-minute 및 output-tokens-per-minute 증가를 요청할 수 있습니다. 승인은 기존 사용량이 증가를 정당화하는지 여부에 따라 달라지므로 요청에 CloudWatch 또는 Service Quotas 콘솔의 최근 사용 정보를 포함합니다.
bedrock-runtime 할당량과의 차이점
bedrock-mantle 할당량은 할당bedrock-runtime량과 독립적입니다. 동일한 기본 모델을 호출하는 경우에도에 대한 트래픽bedrock-runtime.과에 대한 트래픽은 별도의 할당량 할당을 region.amazonaws.combedrock-mantle. 사용합니다.region.api.aws
사용자 지정 추론 프로필 할당량, 배치 추론 할당량 및 프로비저닝된 처리량 할당은 bedrock-runtime 엔드포인트에만 적용되며 bedrock-mantle 엔드포인트에는 노출되지 않습니다.