

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Notas de lançamento do Amazon SageMaker HyperPod Inference
<a name="sagemaker-hyperpod-inference-release-notes"></a>

Este tópico aborda as notas de lançamento que rastreiam atualizações, correções e novos recursos do Amazon SageMaker HyperPod Inference. SageMaker HyperPod A inferência permite que você implante e escale modelos de aprendizado de máquina em seus HyperPod clusters com confiabilidade de nível corporativo. Para ver os lançamentos, atualizações e melhorias gerais da SageMaker HyperPod plataforma Amazon, consulte[Notas SageMaker HyperPod de lançamento da Amazon](sagemaker-hyperpod-release-notes.md).

Para obter informações sobre recursos de SageMaker HyperPod inferência e opções de implantação, consulte[Implantação de modelos na Amazon SageMaker HyperPod](sagemaker-hyperpod-model-deployment.md).

## SageMaker HyperPod Notas de lançamento do Inference: v3.1.2
<a name="sagemaker-hyperpod-inference-release-notes-20260506"></a>

**Data de lançamento:** 6 de maio de 2026

**Resumo**

O Inference Operator v3.1.2 apresenta a captura de dados de inferência para registrar o tráfego de endpoints, a integração do HuggingFace Hub para implantação direta do modelo, o gerenciamento de DNS do Route 53 para domínios personalizados, a implantação do modelo NVMe local para reduzir a latência de inicialização a frio e contas de serviço personalizadas com suporte ao IRSA.

**Novos atributos**
+ **Captura de dados de inferência** — registre entradas e saídas em três pontos de captura: endpoint de SageMaker IA, balanceador de carga (registros de acesso do ALB) e pod de modelos. Habilite qualquer combinação via `dataCapture` seu CRD. Consulte [Captura de dados para inferência sobre HyperPod](sagemaker-hyperpod-model-deployment-data-capture.md).
+ **HuggingFace Fonte do modelo** — implante modelos diretamente do HuggingFace Hub sem pré-escalar para S3 ou FSx. Suporta modelos fechados por meio de`tokenSecretRef`, fixação de revisões e `commitSHA` isolamento de tokens. Compatível com os tempos de execução vLLM, TGI e SGlang. Consulte [Implante modelos do Amazon S3, Amazon FSx ou Hugging Face Hub usando kubectl](sagemaker-hyperpod-model-deployment-deploy-ftm.md).
+ **Gerenciamento de DNS do Route 53** — Crie e gerencie automaticamente registros DNS para domínios personalizados via. `dnsConfig` Consulte [Certificados personalizados e gerenciamento de DNS do Route 53 para HyperPod inferência](sagemaker-hyperpod-model-deployment-custom-certs.md).
+ **Implantação do modelo NVMe local** — carregue os pesos do modelo do armazenamento NVMe local do nó para reduzir a latência de inicialização a frio. `modelSourceType: kubernetesVolume` Suporta fallback para S3. Consulte [Implante modelos do armazenamento NVMe local usando kubectl](sagemaker-hyperpod-model-deployment-deploy-nvme.md).
+ **Contas de serviço personalizadas** — atribua suporte personalizado ServiceAccounts com IRSA aos pods de inferência via. `spec.kubernetes.serviceAccountName`

**Correções de bugs**
+ **Propagação de** User-defined tags — as tags ativadas `InferenceEndpointConfig` agora se propagam corretamente para o `SageMakerEndpointRegistration` CRD e os recursos de IA SageMaker downstream. Anteriormente, as tags não eram passadas durante a criação ou as atualizações do registro do endpoint.
+ **Preservação de réplicas com escalonamento automático** — Corrigido um problema em que a atualização de um `InferenceEndpointConfig` ou `JumpStartModel` CR redefinia a contagem de réplicas para o valor especificado, substituindo a contagem de réplicas atual. HPA/KEDA-managed O operador agora preserva a contagem ativa de réplicas durante as atualizações do CR.
+ **Validação de CRD com escalonamento automático** — Corrigiu o regex de `prometheusTrigger.serverAddress` validação que exigia incorretamente um segmento de caminho final, causando erros 404 quando o KEDA era anexado ao URL do espaço de trabalho AMP. `/api/v1/query`
+ **Rotação de certificados** — Corrigida a rotação personalizada de certificados que não se propagava para o ALB após a reinicialização do pod do operador.

### Atualize para a v3.1.2
<a name="sagemaker-hyperpod-inference-v3-1-2-upgrade"></a>

**Atualização do leme:**

Se você já tem o Operador de Inferência instalado via Helm, use os seguintes comandos para fazer o upgrade:

```
helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm upgrade hyperpod-inference-operator . -n kube-system \
  -f current-values.yaml --set image.tag=v3.1
    
# Verification
kubectl get deployment hyperpod-inference-operator-controller-manager \
  -n hyperpod-inference-system \
  -o jsonpath='{.spec.template.spec.containers[0].image}'
```

** Add-on Atualização do EKS:**

Se você instalou o Operador de Inferência como um EKS Add-on, atualize para a versão mais recente.

Primeiro, verifique se já `hyperpodClusterArn` está na configuração do complemento:

```
CLUSTER=EKS_CLUSTER_NAME
REGION=REGION

aws eks describe-addon \
  --cluster-name $CLUSTER \
  --addon-name amazon-sagemaker-hyperpod-inference \
  --region $REGION \
  --query 'addon.configurationValues' --output text | jq .
```

Se `hyperpodClusterArn` estiver presente na saída, execute o seguinte comando para atualizar:

```
aws eks update-addon \
  --cluster-name $CLUSTER \
  --addon-name amazon-sagemaker-hyperpod-inference \
  --addon-version v1.2.0-eksbuild.1 \
  --resolve-conflicts OVERWRITE \
  --region $REGION
```

Se não `hyperpodClusterArn` estiver presente, busque a configuração atual, adicione-a e atualize:

```
HP_ARN=HYPERPOD_CLUSTER_ARN

CURRENT_CONFIG=$(aws eks describe-addon \
  --cluster-name $CLUSTER \
  --addon-name amazon-sagemaker-hyperpod-inference \
  --region $REGION \
  --query 'addon.configurationValues' --output text)

# Add hyperpodClusterArn to the configuration
NEW_CONFIG=$(echo "$CURRENT_CONFIG" | jq --arg arn "$HP_ARN" \
  '. + {hyperpodClusterArn: $arn}')

aws eks update-addon \
  --cluster-name $CLUSTER \
  --addon-name amazon-sagemaker-hyperpod-inference \
  --addon-version v1.2.0-eksbuild.1 \
  --configuration-values "$NEW_CONFIG" \
  --resolve-conflicts OVERWRITE \
  --region $REGION
```

Aguarde até que o complemento fique ativo antes de implantar os modelos.

## SageMaker HyperPod Notas de lançamento do Inference: v3.1
<a name="sagemaker-hyperpod-inference-release-notes-20260403"></a>

**Data de lançamento:** 3 de abril de 2026

**Resumo**

O Inference Operator v3.1 apresenta configuração personalizada de pod do Kubernetes, suporte personalizado a certificados e limites de solicitação por pod.

**Características principais**
+ **Configuração personalizada do pod Kubernetes** — Foi adicionado um novo `kubernetes` campo ao `InferenceEndpointConfig` CRD que permite aos usuários personalizar as configurações do pod de inferência:
  + **Contêineres de inicialização personalizados — Execute contêineres** de inicialização definidos pelo usuário antes que o servidor de inferência seja iniciado (por exemplo, aquecimento de cache, configuração do GDS). Os contêineres iniciais são injetados após o contêiner de pré-busca do operador.
  + **Volumes personalizados** — adicione volumes adicionais (`emptyDir`,, `hostPath``configMap`, etc.) à especificação do pod, que podem ser referenciados pelos contêineres de inicialização por meio de. `volumeMounts`
  + **Nome do agendador personalizado** — especifique um agendador Kubernetes personalizado para a colocação do pod.
+ **Certificados personalizados — Use seus próprios certificados** ACM para endpoints de inferência em vez de certificados autoassinados gerados pelo operador, configurados via. `customCertificateConfig` Oferece suporte a certificados ACM publicamente confiáveis, certificados de CA AWS privada e certificados importados de CAs externas. O operador monitora a integridade do certificado e oferece suporte à detecção automática de renovação.
+ **Limites** de solicitação — Controle o tratamento de solicitações por pod por meio da nova `RequestLimits` configuração abaixo`Worker`, com os seguintes campos configuráveis:
  + `maxConcurrentRequests`— Máximo de solicitações simultâneas em voo por pod.
  + `maxQueueSize`— Solicitações de fila quando o limite de simultaneidade é atingido antes da rejeição.
  + `overflowStatusCode`— Código de status HTTP retornado quando os limites são excedidos (padrão: 429).

Para obter informações detalhadas, incluindo pré-requisitos e instruções de atualização, consulte as seções abaixo.

### Pré-requisitos
<a name="sagemaker-hyperpod-inference-v3-1-prerequisites"></a>

Para usar o recurso de certificados personalizados, adicione as seguintes permissões à sua função de execução de operador de inferência:

```
{  
    "Sid": "ACMCertificateAccess",  
    "Effect": "Allow",  
    "Action": [  
        "acm:DescribeCertificate",  
        "acm:GetCertificate"  
    ],  
    "Resource": "arn:aws:acm:*:*:certificate/*"  
}
```

### Atualize para v3.1
<a name="sagemaker-hyperpod-inference-v3-1-upgrade"></a>

Se você já tem o Operador de Inferência instalado via Helm, use os seguintes comandos para fazer o upgrade:

```
helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm upgrade hyperpod-inference-operator . -n kube-system \
  -f current-values.yaml --set image.tag=v3.1
    
# Verification
kubectl get deployment hyperpod-inference-operator-controller-manager \
  -n hyperpod-inference-system \
  -o jsonpath='{.spec.template.spec.containers[0].image}'
```

## SageMaker HyperPod Notas de lançamento do Inference: v3.0
<a name="sagemaker-hyperpod-inference-release-notes-20260223"></a>

**Data de lançamento:** 23 de fevereiro de 2026

**Resumo**

O Inference Operator 3.0 apresenta a Add-on integração EKS para gerenciamento simplificado do ciclo de vida, suporte ao Node Affinity para controle granular de agendamento e marcação aprimorada de recursos. Helm-based As instalações existentes podem ser migradas para o EKS Add-on usando o script de migração fornecido. Atualize sua função de execução do Operador de Inferência com novas permissões de marcação antes da atualização.

**Características principais**
+ ** Add-on Integração EKS** — gerenciamento Enterprise-grade do ciclo de vida com experiência de instalação simplificada
+ **Node Affinity** — Controle granular de agendamento para excluir instâncias spot, preferir zonas de disponibilidade ou direcionar nós com rótulos personalizados

Para obter informações detalhadas, incluindo pré-requisitos, instruções de upgrade e diretrizes de migração, consulte as seções abaixo.

### Pré-requisitos
<a name="sagemaker-hyperpod-inference-v3-0-prerequisites"></a>

Antes de atualizar a versão do Helm para 3.0, os clientes devem adicionar permissões adicionais de marcação à sua função de execução de operador de inferência. Como parte da melhoria da marcação e da segurança de recursos, o Operador de Inferência agora marca os recursos ALB, S3 e ACM. Esse aprimoramento requer permissões adicionais na função de execução do Operador de Inferência. Adicione as seguintes permissões à sua função de execução do Operador de Inferência:

```
{  
    "Sid": "CertificateTagginPermission",  
    "Effect": "Allow",  
    "Action": [  
        "acm:AddTagsToCertificate"  
    ],  
    "Resource": "arn:aws:acm:*:*:certificate/*",  
},  
{  
    "Sid": "S3PutObjectTaggingAccess",  
    "Effect": "Allow",  
    "Action": [  
        "s3:PutObjectTagging"  
    ],  
    "Resource": [  
        "arn:aws:s3:::<TLS_BUCKET>/*" # Replace * with your TLS bucket  
    ]  
}
```

### Atualize para v3.0
<a name="sagemaker-hyperpod-inference-v3-0-upgrade"></a>

Se você já tem o Operador de Inferência instalado via Helm, use os seguintes comandos para fazer o upgrade:

```
helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm upgrade hyperpod-inference-operator . -n kube-system \
  -f current-values.yaml --set image.tag=v3.0
    
# Verification
kubectl get deployment hyperpod-inference-operator-controller-manager \
  -n hyperpod-inference-system \
  -o jsonpath='{.spec.template.spec.containers[0].image}'
```

### Migração do Helm para o EKS Add-on
<a name="sagemaker-hyperpod-inference-v3-0-migration"></a>

Se o operador de inferência for instalado por meio do Helm antes da versão 3.0, recomendamos migrar para o EKS Add-on para obter atualizações oportunas sobre os novos recursos que serão lançados para o operador de inferência. Esse script migra o operador de SageMaker HyperPod inferência da Helm-based instalação para a instalação do EKS Add-on .

**Visão geral:** o script usa um nome de cluster e uma região como parâmetros, recupera a configuração de instalação existente do Helm e migra para a implantação do EKS. Add-on Ele cria novas funções do IAM para o operador de inferência, o controlador ALB e o operador KEDA.

Antes de migrar o operador de inferência, o script garante que as dependências necessárias (driver S3 CSI, driver FSx CSI, cert-manager e metrics-server) existam. Se eles não existirem, ele os implanta como Add-on.

Depois que a Add-on migração do Inference Operator for concluída, o script também migrará S3, FSx e outras dependências (ALB, KEDA, cert-manager, metrics-server) se elas tiverem sido originalmente instaladas por meio do gráfico Inference Operator Helm. Use `--skip-dependencies-migration` para pular esta etapa para o driver S3 CSI, o driver FSx CSI, o cert-manager e o metrics-server. Observe que o ALB e o KEDA são instalados como parte do Add-on no mesmo namespace do Operador de Inferência e serão migrados como parte do Operador de Inferência. Add-on

**Importante**  
Durante a migração, não implante novos modelos, pois eles não serão implantados até que a migração seja concluída. Quando o operador de inferência Add-on está no estado ATIVO, novos modelos podem ser implantados. O tempo de migração normalmente leva de 15 a 20 minutos e pode ser concluído em 30 minutos se apenas alguns modelos estiverem implantados atualmente.

**Pré-requisitos de migração:**
+ AWS CLI configurado com as credenciais apropriadas
+ kubectl configurado com acesso ao seu cluster EKS
+ Capacete instalado
+ Instalação existente do Helm do hyperpod-inference-operator

**nota**  
Os endpoints que já estão em execução não serão interrompidos durante o processo de migração. Os endpoints existentes continuarão a atender ao tráfego sem interrupções durante a migração.

**Obtendo o script de migração:**

```
git clone https://github.com/aws/sagemaker-hyperpod-cli.git
cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator/migration
```

**Uso:**

```
./helm_to_addon.sh [OPTIONS] \
  --cluster-name <cluster-name> (Required) \
  --region <region> (Required) \
  --helm-namespace kube-system (Optional) \
  --auto-approve (Optional) \
  --skip-dependencies-migration (Optional) \
  --s3-mountpoint-role-arn <s3-mountpoint-role-arn> (Optional) \
  --fsx-role-arn <fsx-role-arn> (Optional)
```

**Opções:**
+ `--cluster-name NAME`— Nome do cluster EKS (obrigatório)
+ `--region REGION`— AWS região (obrigatório)
+ `--helm-namespace NAMESPACE`— Namespace onde o gráfico Helm está instalado (padrão: kube-system) (opcional)
+ `--s3-mountpoint-role-arn ARN`— ARN da função IAM do driver CSI do S3 Mountpoint (opcional)
+ `--fsx-role-arn ARN`— ARN da função IAM do driver FSx CSI (opcional)
+ `--auto-approve`— Ignore as solicitações de confirmação se esse sinalizador estiver ativado. `step-by-step`e `auto-approve` são mutuamente exclusivos, `--auto-approve` se forem fornecidos, não especifique `--step-by-step` (opcional)
+ `--step-by-step`— Faça uma pausa após cada etapa principal para revisão. Isso não deve ser mencionado `--auto-approve` se já tiver sido adicionado (opcional)
+ `--skip-dependencies-migration`— Ignore a migração de Helm-installed dependências para o. Add-on Pois as dependências NÃO foram instaladas por meio do gráfico Inference Operator Helm ou se você quiser gerenciá-las separadamente. (opcional)

**Exemplos:**

Migração básica (migra dependências):

```
./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1
```

Auto-approve sem avisos:

```
./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1 \
  --auto-approve
```

Ignore a migração de dependências para FSx, S3 mountpoint, cert manager e Metrics server:

```
./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1 \
  --skip-dependencies-migration
```

Forneça as funções S3 e FSx IAM existentes:

```
./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1 \
  --s3-mountpoint-role-arn arn:aws:iam::123456789012:role/s3-csi-role \
  --fsx-role-arn arn:aws:iam::123456789012:role/fsx-csi-role
```

**Local do backup:**

Os backups são armazenados em `/tmp/hyperpod-migration-backup-<timestamp>/`

Os backups permitem migração e recuperação seguras:
+ **Reversão em caso de falha** — Se a migração falhar, o script poderá restaurar automaticamente seu cluster ao estado anterior à migração usando as configurações de backup
+ **Trilha de auditoria** — fornece um registro completo do que existia antes da migração para solução de problemas e conformidade
+ **Referência de configuração** — permite comparar configurações de pré-migração e pós-migração
+ **Recuperação manual** — Se necessário, você pode inspecionar e restaurar manualmente recursos específicos do diretório de backup

**Reversão:**

Se a migração falhar, o script solicitará a confirmação do usuário antes de iniciar a reversão para restaurar o estado anterior.

## SageMaker HyperPod Notas de lançamento do Inference: v2.3
<a name="sagemaker-hyperpod-inference-release-notes-20260203"></a>

**O que há de novo**

Esta versão apresenta novos campos opcionais nas Definições de Recursos Personalizadas (CRDs) para aprimorar a flexibilidade da configuração de implantação.

**Recursos**
+ **Tipos de várias instâncias**
  + **Confiabilidade de implantação aprimorada** — suporta configurações do tipo de várias instâncias com failover automático para tipos de instância alternativos quando as opções preferenciais não têm capacidade
  + **Programação inteligente de recursos** — usa a afinidade de nós do Kubernetes para priorizar os tipos de instância e, ao mesmo tempo, garantir a implantação mesmo quando os recursos preferenciais não estão disponíveis
  + **Custo e desempenho otimizados** — mantém suas preferências de tipo de instância e evita falhas relacionadas à capacidade durante as flutuações do cluster

**Correções de bugs**

As alterações no campo `invocationEndpoint` na especificação do agora `InferenceEndpointConfig` entrarão em vigor:
+ Se o `invocationEndpoint` campo for corrigido ou atualizado, os recursos dependentes, como Load Balancer SageMaker e Endpoint`SageMakerEndpointRegistration`, serão atualizados com a normalização. `Ingress`
+ O valor `invocationEndpoint` fornecido será armazenado como está na própria `InferenceEndpointConfig` especificação. Quando esse valor é usado para criar um Load Balancer e, se ativado, um SageMaker Endpoint, ele será normalizado para ter uma barra inicial.
  + `v1/chat/completions`serão normalizados `/v1/chat/completions` para o `Ingress` AWS Load Balancer e o Endpoint. SageMaker Para o`SageMakerEndpointRegistration`, ele será exibido em sua especificação como`v1/chat/completions`.
  + `///invoke`serão normalizados `/invoke` para o `Ingress` AWS Load Balancer e o Endpoint. SageMaker Para o`SageMakerEndpointRegistration`, ele será exibido em sua especificação como`invoke`.

**Instalando o Helm:**

Siga: [https://github.com/aws/sagemaker-hyperpod-cli/tree/main/helm\_chart](https://github.com/aws/sagemaker-hyperpod-cli/tree/main/helm_chart)

Se você está focado em instalar apenas o operador de inferência, após a etapa 1, ou seja`Set Up Your Helm Environment`, faça`cd HyperPodHelmChart/charts/inference-operator`. Como você está no próprio diretório do gráfico do operador de inferência, nos comandos, onde quer que você veja`helm_chart/HyperPodHelmChart`, `.` substitua por.

**Atualize o Operador para v2.3 caso já esteja instalado:**

```
cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

helm upgrade hyperpod-inference-operator . \
  -n kube-system \
  -f current-values.yaml \
  --set image.tag=v2.3
```