

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

# Catatan rilis Amazon SageMaker HyperPod Inference
<a name="sagemaker-hyperpod-inference-release-notes"></a>

Topik ini mencakup catatan rilis yang melacak pembaruan, perbaikan, dan fitur baru untuk SageMaker HyperPod Inferensi Amazon. SageMaker HyperPod Inferensi memungkinkan Anda untuk menerapkan dan menskalakan model pembelajaran mesin pada HyperPod klaster Anda dengan keandalan tingkat perusahaan. Untuk rilis, pembaruan, dan peningkatan SageMaker HyperPod platform Amazon secara umum, lihat[Catatan SageMaker HyperPod rilis Amazon](sagemaker-hyperpod-release-notes.md).

Untuk informasi tentang kemampuan SageMaker HyperPod Inferensi dan opsi penerapan, lihat. [Menerapkan model di Amazon SageMaker HyperPod](sagemaker-hyperpod-model-deployment.md)

## SageMaker HyperPod Catatan rilis inferensi: v3.1.2
<a name="sagemaker-hyperpod-inference-release-notes-20260506"></a>

**Tanggal Rilis:** 6 Mei 2026

**Ringkasan**

Inference Operator v3.1.2 memperkenalkan pengambilan data inferensi untuk mencatat lalu lintas titik akhir, integrasi HuggingFace Hub untuk penerapan model langsung, manajemen DNS Route 53 untuk domain khusus, penerapan model NVMe lokal untuk mengurangi latensi cold-start, dan akun layanan khusus dengan dukungan IRSA.

**Fitur Baru**
+ **Inference Data Capture** — Rekam input dan output pada tiga titik pengambilan: titik akhir SageMaker AI, penyeimbang beban (log akses ALB), dan pod model. Aktifkan kombinasi apa pun melalui `dataCapture` CRD Anda. Lihat [Pengambilan data untuk inferensi pada HyperPod](sagemaker-hyperpod-model-deployment-data-capture.md).
+ **HuggingFace Sumber Model** - Terapkan model langsung dari HuggingFace Hub tanpa pra-pementasan ke S3 atau FSx. Mendukung model terjaga keamanannya melalui`tokenSecretRef`, penyematan revisi via`commitSHA`, dan isolasi token. Kompatibel dengan runtime VLLm, TGI, dan SGLang. Lihat [Menerapkan model dari Amazon S3, Amazon FSx, atau Hugging Face Hub menggunakan kubectl](sagemaker-hyperpod-model-deployment-deploy-ftm.md).
+ **Route 53 Manajemen DNS** — Secara otomatis membuat dan mengelola catatan DNS untuk domain kustom melalui. `dnsConfig` Lihat [Sertifikat kustom dan manajemen DNS Route 53 untuk Inferensi HyperPod](sagemaker-hyperpod-model-deployment-custom-certs.md).
+ **Penyebaran Model NVMe Lokal** — Muat bobot model dari penyimpanan NVMe node-lokal melalui untuk mengurangi latensi start dingin. `modelSourceType: kubernetesVolume` Mendukung fallback ke S3. Lihat [Terapkan model dari penyimpanan NVMe lokal menggunakan kubectl](sagemaker-hyperpod-model-deployment-deploy-nvme.md).
+ **Akun Layanan Kustom** — Tetapkan kustom ServiceAccounts dengan dukungan IRSA ke pod inferensi melalui. `spec.kubernetes.serviceAccountName`

**Perbaikan Bug**
+ **Tag Propagation** — User-defined tag `InferenceEndpointConfig` sekarang menyebar dengan benar ke `SageMakerEndpointRegistration` CRD dan sumber daya AI hilir SageMaker . Sebelumnya, tag tidak diteruskan selama pembuatan atau pembaruan pendaftaran titik akhir.
+ **Pelestarian Replika Penskalaan Otomatis** — Memperbaiki masalah saat memperbarui `InferenceEndpointConfig` atau `JumpStartModel` CR akan mengatur ulang jumlah replika ke nilai spesifikasi, mengesampingkan jumlah replika saat ini. HPA/KEDA-managed Operator sekarang mempertahankan jumlah replika aktif selama pembaruan CR.
+ Validasi **CRD Autoscaling — Regex `prometheusTrigger.serverAddress` validasi** tetap yang salah memerlukan segmen trailing path, menyebabkan 404 error saat KEDA ditambahkan ke URL ruang kerja AMP. `/api/v1/query`
+ **Rotasi Sertifikat** - Memperbaiki rotasi sertifikat kustom yang tidak menyebar ke ALB setelah pod operator restart.

### Tingkatkan ke v3.1.2
<a name="sagemaker-hyperpod-inference-v3-1-2-upgrade"></a>

**Peningkatan helm:**

Jika Anda sudah menginstal Operator Inferensi melalui Helm, gunakan perintah berikut untuk memutakhirkan:

```
helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm upgrade hyperpod-inference-operator . -n kube-system \
  -f current-values.yaml --set image.tag=v3.1
    
# Verification
kubectl get deployment hyperpod-inference-operator-controller-manager \
  -n hyperpod-inference-system \
  -o jsonpath='{.spec.template.spec.containers[0].image}'
```

** Add-on Peningkatan EKS:**

Jika Anda menginstal Operator Inferensi sebagai EKS Add-on, tingkatkan ke versi terbaru.

Pertama, periksa apakah sudah `hyperpodClusterArn` ada dalam konfigurasi add-on Anda:

```
CLUSTER=EKS_CLUSTER_NAME
REGION=REGION

aws eks describe-addon \
  --cluster-name $CLUSTER \
  --addon-name amazon-sagemaker-hyperpod-inference \
  --region $REGION \
  --query 'addon.configurationValues' --output text | jq .
```

Jika `hyperpodClusterArn` hadir dalam output, jalankan perintah berikut untuk meng-upgrade:

```
aws eks update-addon \
  --cluster-name $CLUSTER \
  --addon-name amazon-sagemaker-hyperpod-inference \
  --addon-version v1.2.0-eksbuild.1 \
  --resolve-conflicts OVERWRITE \
  --region $REGION
```

Jika tidak `hyperpodClusterArn` ada, ambil konfigurasi saat ini, tambahkan, dan tingkatkan:

```
HP_ARN=HYPERPOD_CLUSTER_ARN

CURRENT_CONFIG=$(aws eks describe-addon \
  --cluster-name $CLUSTER \
  --addon-name amazon-sagemaker-hyperpod-inference \
  --region $REGION \
  --query 'addon.configurationValues' --output text)

# Add hyperpodClusterArn to the configuration
NEW_CONFIG=$(echo "$CURRENT_CONFIG" | jq --arg arn "$HP_ARN" \
  '. + {hyperpodClusterArn: $arn}')

aws eks update-addon \
  --cluster-name $CLUSTER \
  --addon-name amazon-sagemaker-hyperpod-inference \
  --addon-version v1.2.0-eksbuild.1 \
  --configuration-values "$NEW_CONFIG" \
  --resolve-conflicts OVERWRITE \
  --region $REGION
```

Tunggu hingga add-on menjadi aktif sebelum menerapkan model.

## SageMaker HyperPod Catatan rilis inferensi: v3.1
<a name="sagemaker-hyperpod-inference-release-notes-20260403"></a>

**Tanggal Rilis:** 3 April 2026

**Ringkasan**

Inference Operator v3.1 memperkenalkan konfigurasi pod Kubernetes kustom, dukungan sertifikat kustom, dan batas permintaan per pod.

**Fitur Utama**
+ **Konfigurasi Pod Kubernetes Kustom** - Menambahkan `kubernetes` bidang baru ke `InferenceEndpointConfig` CRD yang memungkinkan pengguna untuk menyesuaikan konfigurasi pod inferensi:
  + **Kontainer init khusus** — Jalankan kontainer init yang ditentukan pengguna sebelum server inferensi dimulai (misalnya, pemanasan cache, pengaturan GDS). Wadah init disuntikkan setelah wadah prefetch operator.
  + **Volume khusus** — Tambahkan volume tambahan (`emptyDir`,,`hostPath`,`configMap`, dll.) ke spesifikasi pod, yang dapat direferensikan oleh kontainer init melalui. `volumeMounts`
  + **Nama penjadwal kustom** - Tentukan penjadwal Kubernetes kustom untuk penempatan pod.
+ **Sertifikat Kustom** — Gunakan sertifikat ACM Anda sendiri untuk titik akhir inferensi alih-alih sertifikat yang ditandatangani sendiri yang dibuat operator, yang dikonfigurasi melalui. `customCertificateConfig` Mendukung sertifikat ACM tepercaya publik, sertifikat CA AWS pribadi, dan sertifikat yang diimpor dari CA eksternal. Operator memantau kesehatan sertifikat dan mendukung deteksi pembaruan otomatis.
+ **Batas** Permintaan — Kontrol penanganan permintaan per pod melalui `RequestLimits` konfigurasi baru di bawah`Worker`, dengan bidang yang dapat dikonfigurasi berikut:
  + `maxConcurrentRequests`— Permintaan dalam penerbangan bersamaan maksimum per pod.
  + `maxQueueSize`— Permintaan untuk mengantri ketika batas konkurensi tercapai sebelum menolak.
  + `overflowStatusCode`— Kode status HTTP dikembalikan ketika batas terlampaui (default: 429).

Untuk informasi rinci termasuk prasyarat dan petunjuk peningkatan, lihat bagian di bawah ini.

### Prasyarat
<a name="sagemaker-hyperpod-inference-v3-1-prerequisites"></a>

Untuk menggunakan fitur Custom Certificates, tambahkan izin berikut ke peran eksekusi Operator Inferensi Anda:

```
{  
    "Sid": "ACMCertificateAccess",  
    "Effect": "Allow",  
    "Action": [  
        "acm:DescribeCertificate",  
        "acm:GetCertificate"  
    ],  
    "Resource": "arn:aws:acm:*:*:certificate/*"  
}
```

### Tingkatkan ke v3.1
<a name="sagemaker-hyperpod-inference-v3-1-upgrade"></a>

Jika Anda sudah menginstal Operator Inferensi melalui Helm, gunakan perintah berikut untuk memutakhirkan:

```
helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm upgrade hyperpod-inference-operator . -n kube-system \
  -f current-values.yaml --set image.tag=v3.1
    
# Verification
kubectl get deployment hyperpod-inference-operator-controller-manager \
  -n hyperpod-inference-system \
  -o jsonpath='{.spec.template.spec.containers[0].image}'
```

## SageMaker HyperPod Catatan rilis inferensi: v3.0
<a name="sagemaker-hyperpod-inference-release-notes-20260223"></a>

**Tanggal Rilis:** 23 Februari 2026

**Ringkasan**

Inference Operator 3.0 memperkenalkan Add-on integrasi EKS untuk manajemen siklus hidup yang disederhanakan, dukungan Node Affinity untuk kontrol penjadwalan granular, dan penandaan sumber daya yang ditingkatkan. Helm-based Instalasi yang ada dapat dimigrasikan ke EKS Add-on menggunakan skrip migrasi yang disediakan. Perbarui peran eksekusi Operator Inferensi Anda dengan izin penandaan baru sebelum memutakhirkan.

**Fitur Utama**
+ **EKS Add-on Integrasi** - manajemen Enterprise-grade siklus hidup dengan pengalaman instalasi yang disederhanakan
+ **Node Affinity** — Kontrol penjadwalan granular untuk mengecualikan instance spot, memilih zona ketersediaan, atau menargetkan node dengan label khusus

Untuk informasi terperinci termasuk prasyarat, petunjuk peningkatan, dan panduan migrasi, lihat bagian di bawah ini.

### Prasyarat
<a name="sagemaker-hyperpod-inference-v3-0-prerequisites"></a>

Sebelum memutakhirkan versi Helm ke 3.0, pelanggan harus menambahkan izin penandaan tambahan ke peran eksekusi operator Inferensi mereka. Sebagai bagian dari peningkatan penandaan dan keamanan sumber daya, Operator Inferensi sekarang menandai sumber daya ALB, S3, dan ACM. Peningkatan ini memerlukan izin tambahan dalam peran eksekusi Operator Inferensi. Tambahkan izin berikut ke peran eksekusi Operator Inferensi Anda:

```
{  
    "Sid": "CertificateTagginPermission",  
    "Effect": "Allow",  
    "Action": [  
        "acm:AddTagsToCertificate"  
    ],  
    "Resource": "arn:aws:acm:*:*:certificate/*",  
},  
{  
    "Sid": "S3PutObjectTaggingAccess",  
    "Effect": "Allow",  
    "Action": [  
        "s3:PutObjectTagging"  
    ],  
    "Resource": [  
        "arn:aws:s3:::<TLS_BUCKET>/*" # Replace * with your TLS bucket  
    ]  
}
```

### Tingkatkan ke v3.0
<a name="sagemaker-hyperpod-inference-v3-0-upgrade"></a>

Jika Anda sudah menginstal Operator Inferensi melalui Helm, gunakan perintah berikut untuk memutakhirkan:

```
helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm upgrade hyperpod-inference-operator . -n kube-system \
  -f current-values.yaml --set image.tag=v3.0
    
# Verification
kubectl get deployment hyperpod-inference-operator-controller-manager \
  -n hyperpod-inference-system \
  -o jsonpath='{.spec.template.spec.containers[0].image}'
```

### Helm ke Migrasi EKS Add-on
<a name="sagemaker-hyperpod-inference-v3-0-migration"></a>

Jika operator Inferensi diinstal melalui Helm sebelum versi 3.0, kami sarankan untuk bermigrasi ke EKS Add-on untuk mendapatkan pembaruan tepat waktu pada fitur baru yang akan dirilis untuk Operator Inferensi. Skrip ini memigrasikan Operator SageMaker HyperPod Inferensi dari Helm-based instalasi ke instalasi EKS Add-on .

**Ikhtisar:** Skrip mengambil nama cluster dan wilayah sebagai parameter, mengambil konfigurasi instalasi Helm yang ada, dan bermigrasi ke penerapan EKS. Add-on Ini menciptakan peran IAM baru untuk Operator Inferensi, Pengontrol ALB, dan Operator KEDA.

Sebelum memigrasikan Operator Inferensi, skrip memastikan dependensi yang diperlukan (driver S3 CSI, driver FSx CSI, cert-manager, dan metrics-server) ada. Jika mereka tidak ada, itu menyebarkan mereka sebagai Add-on.

Setelah Add-on migrasi Operator Inferensi selesai, skrip juga memigrasikan S3, fsX, dan dependensi lainnya (ALB, KEDA, cert-manager, metrics-server) jika awalnya diinstal melalui bagan Helm Operator Inference. Gunakan `--skip-dependencies-migration` untuk melewati langkah ini untuk driver S3 CSI, driver FSx CSI, cert-manager, dan metrics-server. Perhatikan bahwa ALB dan KEDA diinstal sebagai bagian dari namespace yang Add-on sama dengan Operator Inferensi, dan akan dimigrasikan sebagai bagian dari Operator Inferensi. Add-on

**penting**  
Selama migrasi, jangan gunakan model baru karena model tersebut tidak akan diterapkan hingga migrasi selesai. Setelah Operator Add-on Inferensi dalam status AKTIF, model baru dapat digunakan. Waktu migrasi biasanya memakan waktu 15 hingga 20 menit, dan dapat selesai dalam 30 menit jika hanya beberapa model yang saat ini digunakan.

**Prasyarat Migrasi:**
+ AWS CLI dikonfigurasi dengan kredensyal yang sesuai
+ kubectl dikonfigurasi dengan akses ke kluster EKS Anda
+ Helm dipasang
+ Instalasi Helm yang ada dari hyperpod-inference-operator

**catatan**  
Titik akhir yang sudah berjalan tidak akan terganggu selama proses migrasi. Endpoint yang ada akan terus melayani lalu lintas tanpa gangguan selama migrasi.

**Mendapatkan Skrip Migrasi:**

```
git clone https://github.com/aws/sagemaker-hyperpod-cli.git
cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator/migration
```

**Pemakaian:**

```
./helm_to_addon.sh [OPTIONS] \
  --cluster-name <cluster-name> (Required) \
  --region <region> (Required) \
  --helm-namespace kube-system (Optional) \
  --auto-approve (Optional) \
  --skip-dependencies-migration (Optional) \
  --s3-mountpoint-role-arn <s3-mountpoint-role-arn> (Optional) \
  --fsx-role-arn <fsx-role-arn> (Optional)
```

**Pilihan:**
+ `--cluster-name NAME`— Nama cluster EKS (wajib)
+ `--region REGION`— AWS wilayah (wajib)
+ `--helm-namespace NAMESPACE`— Namespace tempat bagan Helm diinstal (default: kube-system) (opsional)
+ `--s3-mountpoint-role-arn ARN`— S3 Mountpoint CSI driver IAM peran ARN (opsional)
+ `--fsx-role-arn ARN`- Driver FSx CSI peran IAM ARN (opsional)
+ `--auto-approve`— Lewati konfirmasi konfirmasi jika bendera ini diaktifkan. `step-by-step`dan `auto-approve` saling eksklusif, jika `--auto-approve` diberikan, jangan tentukan `--step-by-step` (opsional)
+ `--step-by-step`— Jeda setelah setiap langkah utama untuk ditinjau. Ini tidak boleh disebutkan jika `--auto-approve` sudah ditambahkan (opsional)
+ `--skip-dependencies-migration`— Lewati migrasi Helm-installed dependensi ke. Add-on Untuk dependensi TIDAK diinstal melalui bagan Helm Operator Inference, atau jika Anda ingin mengelolanya secara terpisah. (opsional)

**Contoh:**

Migrasi dasar (memigrasikan dependensi):

```
./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1
```

Auto-approve tanpa petunjuk:

```
./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1 \
  --auto-approve
```

Lewati migrasi ketergantungan untuk fsX, S3 mountpoint, manajer sertifikat, dan server Metrik:

```
./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1 \
  --skip-dependencies-migration
```

Menyediakan peran IAM S3 dan FSx yang ada:

```
./helm_to_addon.sh \
  --cluster-name my-cluster \
  --region us-east-1 \
  --s3-mountpoint-role-arn arn:aws:iam::123456789012:role/s3-csi-role \
  --fsx-role-arn arn:aws:iam::123456789012:role/fsx-csi-role
```

**Lokasi Cadangan:**

Backup disimpan di `/tmp/hyperpod-migration-backup-<timestamp>/`

Pencadangan memungkinkan migrasi dan pemulihan yang aman:
+ **Rollback on Failure** - Jika migrasi gagal, skrip dapat secara otomatis mengembalikan klaster Anda ke status pra-migrasi menggunakan konfigurasi yang dicadangkan
+ **Audit Trail** — Memberikan catatan lengkap tentang apa yang ada sebelum migrasi untuk pemecahan masalah dan kepatuhan
+ **Referensi Konfigurasi** - Memungkinkan Anda membandingkan konfigurasi pra-migrasi dan pasca-migrasi
+ **Pemulihan Manual** - Jika diperlukan, Anda dapat secara manual memeriksa dan memulihkan sumber daya tertentu dari direktori cadangan

**Rollback:**

Jika migrasi gagal, skrip meminta konfirmasi pengguna sebelum memulai rollback untuk memulihkan status sebelumnya.

## SageMaker HyperPod Catatan rilis inferensi: v2.3
<a name="sagemaker-hyperpod-inference-release-notes-20260203"></a>

**Apa yang baru**

Rilis ini memperkenalkan bidang opsional baru dalam Definisi Sumber Daya Kustom (CRD) untuk meningkatkan fleksibilitas konfigurasi penerapan.

**Fitur**
+ **Jenis Multi Instance**
  + **Keandalan penerapan yang disempurnakan** — Mendukung konfigurasi tipe multi-instance dengan failover otomatis ke tipe instans alternatif saat opsi pilihan tidak memiliki kapasitas
  + **Penjadwalan sumber daya cerdas** — Menggunakan afinitas node Kubernetes untuk memprioritaskan tipe instance sekaligus menjamin penerapan bahkan ketika sumber daya pilihan tidak tersedia
  + **Biaya dan kinerja yang dioptimalkan** — Mempertahankan preferensi jenis instans Anda dan mencegah kegagalan terkait kapasitas selama fluktuasi klaster

**Perbaikan Bug**

Perubahan pada bidang `invocationEndpoint` dalam spesifikasi sekarang `InferenceEndpointConfig` akan berlaku:
+ Jika `invocationEndpoint` bidang ditambal atau diperbarui, sumber daya dependen, seperti`Ingress`, Load Balancer, SageMaker dan Endpoint`SageMakerEndpointRegistration`, akan diperbarui dengan normalisasi.
+ Nilai yang `invocationEndpoint` disediakan akan disimpan apa adanya dalam `InferenceEndpointConfig` spesifikasi itu sendiri. Ketika nilai ini digunakan untuk membuat Load Balancer dan— jika diaktifkan— SageMaker Endpoint, nilai ini akan dinormalisasi untuk memiliki satu garis miring ke depan.
  + `v1/chat/completions`akan dinormalisasi `/v1/chat/completions` untuk AWS Load Balancer`Ingress`, SageMaker dan Endpoint. Untuk`SageMakerEndpointRegistration`, itu akan ditampilkan dalam spesifikasinya sebagai`v1/chat/completions`.
  + `///invoke`akan dinormalisasi `/invoke` untuk AWS Load Balancer`Ingress`, SageMaker dan Endpoint. Untuk`SageMakerEndpointRegistration`, itu akan ditampilkan dalam spesifikasinya sebagai`invoke`.

**Instalasi Helm:**

Ikuti: [https://github.com/aws/sagemaker-hyperpod-cli/tree/main/helm\_chart](https://github.com/aws/sagemaker-hyperpod-cli/tree/main/helm_chart)

Jika Anda fokus hanya menginstal operator inferensi, setelah langkah 1 yaitu`Set Up Your Helm Environment`, lakukan`cd HyperPodHelmChart/charts/inference-operator`. Karena Anda berada di direktori bagan operator inferensi itu sendiri, dalam perintah, di mana pun Anda melihat`helm_chart/HyperPodHelmChart`, ganti dengan`.`.

**Tingkatkan Operator ke v2.3 jika sudah diinstal:**

```
cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\
charts/inference-operator

helm get values -n kube-system hyperpod-inference-operator \
> current-values.yaml

helm upgrade hyperpod-inference-operator . \
  -n kube-system \
  -f current-values.yaml \
  --set image.tag=v2.3
```