Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Archiviazione
Suggerimento
Registrati
Gestione e archiviazione dei dati
Implementa i modelli AI sui pod utilizzando un driver CSI
AI/ML i carichi di lavoro richiedono spesso l'accesso a artefatti di modelli di grandi dimensioni (ad esempio pesi addestrati, configurazioni) e i pod necessitano di un modo affidabile e scalabile per accedervi senza incorporarli nelle immagini dei container, il che può aumentare le dimensioni delle immagini e i tempi di recupero del registro dei container. Per ridurre il sovraccarico operativo legato alla gestione dei montaggi di volume, consigliamo di implementare modelli AI sui pod montando i servizi di storage Amazon (ad esempio, S3, FSx for Lustre, FSx for OpenZFS, EFS) come Persistent Volumes (PV) utilizzando i rispettivi driver CSI. Per i dettagli sull'implementazione, consulta gli argomenti successivi in questa sezione.
Ottimizza lo storage per le cache dei modelli ML su EKS
L'utilizzo di una soluzione di archiviazione ottimale è fondamentale per ridurre al minimo la latenza di avvio dei pod e delle applicazioni, ridurre l'utilizzo della memoria, ottenere i livelli di prestazioni desiderati per accelerare i carichi di lavoro e garantire la scalabilità dei carichi di lavoro ML. I carichi di lavoro ML si basano spesso su file modello (pesi), che possono essere di grandi dimensioni e richiedere l'accesso condiviso ai dati tra pod o nodi. La scelta della soluzione di storage ottimale dipende dalle caratteristiche del carico di lavoro, come l'efficienza a nodo singolo, l'accesso a più nodi, i requisiti di latenza, i vincoli di costo e anche i requisiti di integrazione dei dati (ad esempio con un repository di dati Amazon S3). Ti consigliamo di confrontare diverse soluzioni di storage con i tuoi carichi di lavoro per capire quale soddisfa i tuoi requisiti e abbiamo fornito le seguenti opzioni per aiutarti a valutare in base ai requisiti del tuo carico di lavoro.
Il driver EKS CSI supporta i seguenti servizi di storage AWS, ognuno con il proprio driver CSI e presenta i propri punti di forza per i flussi di lavoro AI e ML:
La scelta del servizio di storage AWS dipende dall'architettura di distribuzione, dalla scalabilità, dai requisiti prestazionali e dalla strategia di costo. I driver Storage CSI devono essere installati sul cluster EKS, il che consente al driver CSI di creare e gestire volumi persistenti (PV) al di fuori del ciclo di vita di un Pod. Utilizzando il driver CSI, puoi creare definizioni PV dei servizi di storage AWS supportati come risorse del cluster EKS. I pod possono quindi accedere a questi volumi di storage per i rispettivi volumi di dati creando un Persistent Volume Claim (PVC) per il PV. A seconda del servizio di storage AWS e dello scenario di implementazione, un singolo PVC (e il relativo PV associato) può essere collegato a più Pod per un carico di lavoro. Ad esempio, per l'allenamento ML, i dati di allenamento condivisi vengono archiviati su un PV e vi si accede da più Pod; per l'inferenza online in tempo reale, i modelli LLM vengono memorizzati nella cache su un PV e vi si accede da più Pod. Di seguito sono riportati esempi di file YAML PV e PVC per i servizi di storage AWS per aiutarti a iniziare.
Monitoraggio delle prestazioni Le scarse prestazioni del disco possono ritardare la lettura delle immagini dei container, aumentare la latenza di avvio dei pod e ridurre la velocità di inferenza o di addestramento. Usa Amazon CloudWatch per monitorare i parametri prestazionali per i tuoi servizi di storage AWS. Quando identifichi problemi di prestazioni, modifica i parametri di configurazione dello storage per ottimizzare le prestazioni.
Scenario: carico di lavoro di più istanze GPU
Amazon FSx for Lustre: negli scenari in cui disponi di più istanze di calcolo GPU EC2 con carichi di lavoro dinamici sensibili alla latenza e con throughput a larghezza di banda elevata, come formazione distribuita e gestione di modelli, e richiedi l'integrazione nativa del repository di dati Amazon S3, consigliamo Amazon FSx for Lustre. FSx for Lustre fornisce un file system parallelo ad alte prestazioni completamente gestito, progettato per carichi di lavoro ad alta intensità di calcolo come l'High Performance Computing (HPC) e il Machine Learning.
È possibile installare il driver CSI FSx for Lustre per montare i filesystem FSx su EKS come volume persistente (PV), quindi implementare il file system FSx for Lustre come cache autonoma ad alte prestazioni S3-linked o come file system che funge da cache ad alte prestazioni per i dati S3, fornendo un throughput rapido e elevato per l'accesso ai dati tra le istanze di calcolo GPU. I/O FSx for Lustre può essere implementato Scratch-SSD con Persistent-SSD una delle seguenti opzioni di storage:
-
Scratch-SSD storage: consigliato per carichi di lavoro temporanei o di breve durata (ore), con capacità di throughput fissa per TiB fornita.
-
Persistent-SSD storage: consigliato per carichi di lavoro mission critical e di lunga durata che richiedono il massimo livello di disponibilità, ad esempio simulazioni HPC, analisi dei Big Data o formazione sul Machine Learning. Con Persistent-SSD lo storage, è possibile configurare sia la capacità di storage che la capacità di throughput (per TiB) richiesta.
Considerazioni sulle prestazioni:
-
Pod amministrativo per gestire il file system FSx for Lustre: configura un pod «amministrativo» con il client lustre installato e il file system FSx montato. Ciò consentirà un punto di accesso per consentire la regolazione fine del file system FSx e anche in situazioni in cui è necessario preriscaldare il file system FSx con i dati di addestramento ML o i modelli LLM prima di avviare le istanze di calcolo GPU. Ciò è particolarmente importante se la tua architettura utilizza istanze Spot-based Amazon GPU/compute EC2, in cui puoi utilizzare il Pod amministrativo per «riscaldare» o «precaricare» i dati desiderati nel file system FSx, in modo che siano pronti per essere elaborati quando esegui le istanze Amazon EC2 basate su Spot.
-
Elastic Fabric Adapter (EFA): i tipi di implementazione Persistent-SSD dello storage supportano Elastic Fabric Adapter (EFA), dove l'utilizzo di EFA è ideale per carichi di lavoro ad alte prestazioni e basati sul throughput. GPU-based Tieni presente che FSx for Lustre supporta NVIDIA GPUDirect Storage (GDS), dove GDS è una tecnologia che crea un percorso dati diretto tra lo storage locale o remoto e la memoria GPU, per consentire un accesso più rapido ai dati.
-
Compressione: abilita la compressione dei dati sul file system se hai tipi di file che possono essere compressi. Ciò può contribuire ad aumentare le prestazioni in quanto la compressione dei dati riduce la quantità di dati trasferiti tra i file server e lo storage FSx for Lustre.
-
Configurazione dello striping del file system Lustre:
-
Striping dei dati: consente a FSx for Luster di distribuire i dati di un file su più Object Storage Target (OST) all'interno di un file system Lustre, massimizza l'accesso parallelo e la velocità effettiva, in particolare per i lavori di formazione ML su larga scala.
-
Striping del file system autonomo: per impostazione predefinita, viene creata automaticamente una configurazione di striping Lustre a 4 componenti tramite la funzionalità Progressive file layouts (PFL) di FSx for Lustre. Nella maggior parte degli scenari non è necessario aggiornare la striscia PFL Lustre predefinita. count/size Se è necessario regolare lo striping dei dati Lustre, è possibile regolare manualmente lo striping Lustre facendo riferimento ai parametri di striping di un file system FSx for Lustre.
-
S3-Linked File system: i file importati nel file system FSx utilizzando l'integrazione nativa di Amazon S3 (Data Repository Association o DRA) non utilizzano il layout PFL predefinito, ma utilizzano invece il layout nel parametro del file system.
ImportedFileChunkSizeS3-imported i file più grandi di quelliImportedFileChunkSizeverranno archiviati su più OST con un numero di stripe basato sul valore definito (impostazione predefinita 1GiB).ImportedFileChunkSizeSe hai file di grandi dimensioni, ti consigliamo di impostare questo parametro su un valore più alto. -
Posizionamento: implementa un file system FSx for Lustre nella stessa zona di disponibilità dei nodi di elaborazione o GPU per consentire l'accesso ai dati con la latenza più bassa ed evitare schemi di accesso tra zone di disponibilità. Se disponi di più nodi GPU situati in zone di disponibilità diverse, ti consigliamo di implementare un file system FSx in ciascuna zona di disponibilità per un accesso ai dati a bassa latenza.
-
Esempio
Definizione del volume persistente (PV) per un file system FSx for Lustre, utilizzando il provisioning statico (in cui è già stato effettuato il provisioning dell'istanza FSx).
apiVersion: v1 kind: PersistentVolume metadata: name: fsx-pv spec: capacity: storage: 1200Gi volumeMode: Filesystem accessModes: - ReadWriteMany mountOptions: - flock persistentVolumeReclaimPolicy: Recycle csi: driver: fsx.csi.aws.com volumeHandle: [FileSystemId of FSx instance] volumeAttributes: dnsname: [DNSName of FSx instance] mountname: [MountName of FSx instance]
Esempio
Definizione di Persistent Volume Claim per PV denominata: fsx-pv
apiVersion: v1 kind: PersistentVolumeClaim metadata: name: fsx-claim spec: accessModes: - ReadWriteMany storageClassName: "" resources: requests: storage: 1200Gi volumeName: fsx-pv
Esempio
Configura un pod per utilizzare un Persistent Volume Claim difsx-claim:
apiVersion: v1 kind: Pod metadata: name: fsx-app spec: containers: - name: app image: amazonlinux:2023 command: ["/bin/sh"] volumeMounts: - name: persistent-storage mountPath: /data volumes: - name: persistent-storage persistentVolumeClaim: claimName: fsx-claim
Per esempi completi, vedere gli esempi di driver FSx for Lustre
Scenario: carico di lavoro a singola istanza GPU
Mountpoint per Amazon S3 con driver CSI: puoi montare un bucket S3 come volume nei tuoi pod utilizzando il driver CSI Mountpoint per Amazon S3. Questo metodo consente un controllo granulare degli accessi su quali Pod possono accedere a bucket S3 specifici. Ogni pod dispone di una propria istanza di mountpoint e di una cache locale (5-10 GB), che isolano le prestazioni di caricamento e lettura del modello tra i pod. Questa configurazione supporta l'autenticazione a livello di pod con IAM Roles for Service Accounts (IRSA) e il controllo delle versioni dei modelli indipendenti per diversi modelli o clienti. Il compromesso è l'aumento dell'utilizzo della memoria e del traffico API, poiché ogni pod invia chiamate API S3 e mantiene la propria cache.
Esempio: esempio parziale di implementazione di un Pod (YAML) con driver CSI:
# CSI driver dynamically mounts the S3 bucket for each pod volumes: - name: s3-mount csi: driver: s3.csi.aws.com volumeAttributes: bucketName: your-s3-bucket-name mountOptions: "--allow-delete" # Optional region: us-west-2 containers: - name: inference image: your-inference-image volumeMounts: - mountPath: /models name: s3-mount volumeMounts: - name: model-cache mountPath: /models volumes: - name: model-cache hostPath: path: /mnt/s3-model-cache
Considerazioni sulle prestazioni:
-
Memorizzazione nella cache dei dati: Mountpoint per S3 può memorizzare nella cache i contenuti per ridurre i costi e migliorare le prestazioni in caso di letture ripetute sullo stesso file. Fai riferimento alla configurazione della memorizzazione nella cache per le opzioni e i parametri di memorizzazione nella cache
. -
Dimensione parziale dell'oggetto: quando memorizzi e accedi a file di dimensioni superiori a 72 GB, consulta Configurazione delle prestazioni di Mountpoint per capire come configurare
i parametri della --write-part-sizeriga di comando--read-part-sizee il profilo dei dati per soddisfare i requisiti del profilo dei dati e del carico di lavoro. -
Shared-cache
è progettato per oggetti di dimensioni fino a 1 MB. Non supporta oggetti di grandi dimensioni. Utilizzate l'opzione Cache locale per memorizzare nella cache gli oggetti nei volumi NVMe o EBS sul nodo EKS. -
Costi per le richieste API: quando si eseguono un numero elevato di operazioni sui file con Mountpoint for S3, i costi delle richieste API possono diventare una parte dei costi di archiviazione. Per mitigare questo problema, se non è richiesta una forte coerenza, abilita sempre la memorizzazione nella cache dei metadati e imposta il
metadata-ttlperiodo per ridurre il numero di operazioni API su S3.
Per ulteriori dettagli, consulta il driver CSI Mountpoint for Amazon S3 nella documentazione ufficiale di Amazon EKS. Ti consigliamo di monitorare i parametri prestazionali di Amazon S3 con i parametri di CloudWatch Amazon in caso di colli di bottiglia e di modificare la configurazione dove necessario.
Amazon FSx per lo storage condiviso persistente OpenZFS
Per scenari che coinvolgono più istanze di calcolo GPU EC2 con carichi di lavoro sensibili alla latenza che richiedono alta disponibilità, alte prestazioni, sensibilità ai costi e implementazioni di più pod per diverse applicazioni, consigliamo Amazon FSx per OpenZFS. Alcuni esempi di carichi di lavoro includono inferenza in tempo reale, reinforcement learning e addestramento di reti generative antagoniste. FSx for OpenZFS è particolarmente utile per i carichi di lavoro che richiedono un accesso ad alte prestazioni a una struttura di directory mirata con file di piccole dimensioni che utilizzano modelli di accesso ai dati IO di piccole dimensioni. Inoltre, FSx for OpenZFS offre la flessibilità necessaria per scalare le prestazioni indipendentemente dalla capacità di storage, aiutandovi a raggiungere un'efficienza ottimale in termini di costi adattando le dimensioni dello storage alle esigenze effettive e mantenendo al contempo i livelli di prestazioni richiesti
Il driver CSI nativo FSx for OpenZFS
FSx for OpenZFS supporta tre diversi tipi di implementazione al momento della creazione:
-
Single-AZ: opzione dal costo più basso con latenze inferiori al millisecondo, ma non offre un'elevata disponibilità a livello di file system o di zona di disponibilità. Consigliata per carichi di lavoro di sviluppo e test o per carichi di lavoro con elevata disponibilità a livello di applicazione.
-
Single-AZ (HA): offre un'elevata disponibilità a livello di file system con latenze inferiori al millisecondo. Consigliato per carichi di lavoro dalle prestazioni più elevate che richiedono un'elevata disponibilità.
-
Multi-AZ: offre un'elevata disponibilità a livello di file system e in tutte le zone di disponibilità. Consigliato per carichi di lavoro ad alte prestazioni che richiedono una disponibilità aggiuntiva tra le zone di disponibilità.
Considerazioni sulle prestazioni:
-
Tipo di distribuzione: se la disponibilità aggiuntiva tra le zone di disponibilità non è un requisito, prendi in considerazione l'utilizzo del tipo di distribuzione Single-AZ (HA). Questo tipo di implementazione fornisce fino al 100% del throughput per le scritture, mantiene latenze inferiori al millisecondo e i file system Gen2 dispongono di una cache NVMe aggiuntiva per archiviare fino a terabyte di dati a cui si accede di frequente. I Multi-AZ file system forniscono fino al 75% del throughput per le scritture a una latenza maggiore per adattarsi al traffico Cross-AZ.
-
Throughput e IOPS: sia il throughput che gli IOPS configurati per il file system possono essere aumentati o ridotti dopo l'implementazione. È possibile effettuare il provisioning della velocità effettiva 10GB/s del disco garantendo l'accesso ai dati memorizzati nella cache. 21GB/s Gli IOPS possono essere scalati fino a 400.000 unità dal disco e la cache può fornire oltre 1 milione di IOPS. Si noti che la scalabilità del throughput di un Single-AZ file system causa una breve interruzione del file system in quanto non esiste un'elevata disponibilità. Il ridimensionamento della velocità effettiva di un Single-AZ (HA) o di un Multi-AZ file system può essere eseguito senza interruzioni. Gli IOPS degli SSD possono essere scalati una volta ogni sei ore.
-
Classe di archiviazione: FSx for OpenZFS supporta sia la classe di archiviazione SSD che la classe di archiviazione. Intelligent-Tiering Per i AI/ML carichi di lavoro, si consiglia di utilizzare la classe di archiviazione SSD che fornisce prestazioni costanti al carico di lavoro, mantenendo la CPU il più occupata possibile. s/GPU
-
Compressione: abilita l'algoritmo di compressione LZ4 se hai un carico di lavoro che può essere compresso. Ciò riduce la quantità di dati che ogni file consuma nella cache, permettendo di fornire più dati direttamente dalla cache come throughput di rete e IOPS per ridurre il carico sul disco SSD.
-
Dimensione del record: la maggior parte dei AI/ML carichi di lavoro trarrà vantaggio dal mantenimento della dimensione di record predefinita di 128 KiB. Questo valore deve essere ridotto solo se il set di dati è costituito da file di grandi dimensioni (superiori a 10 GiB) con accesso costante a piccoli blocchi inferiore a 128 KiB dall'applicazione.
Una volta creato il file system, il servizio crea automaticamente un volume root associato. È consigliabile archiviare i dati all'interno di volumi secondari del volume root del file system. Utilizzando il driver CSI FSx for OpenZFS si
Esempi:
Una definizione di Storage Class (SC) per un volume FSx for OpenZFS, utilizzata per creare un volume figlio del volume root ($ROOT_VOL_ID) su un file system esistente ed esportare il volume nel VPC CIDR ($VPC_CIDR) utilizzando il protocollo NFS v4.2.
apiVersion: storage.k8s.io/v1 kind: StorageClass metadata: name: fsxz-vol-sc provisioner: fsx.openzfs.csi.aws.com parameters: ResourceType: "volume" ParentVolumeId: '"$ROOT_VOL_ID"' CopyTagsToSnapshots: 'false' DataCompressionType: '"LZ4"' NfsExports: '[{"ClientConfigurations": [{"Clients": "$VPC_CIDR", "Options": ["rw","crossmnt","no_root_squash"]}]}]' ReadOnly: 'false' RecordSizeKiB: '128' Tags: '[{"Key": "Name", "Value": "AI-ML"}]' OptionsOnDeletion: '["DELETE_CHILD_VOLUMES_AND_SNAPSHOTS"]' reclaimPolicy: Delete allowVolumeExpansion: false mountOptions: - nfsvers=4.2 - rsize=1048576 - wsize=1048576 - timeo=600 - nconnect=16 - async
Un Persistent Volume Claim (PVC) creato dinamicamente rispetto al fsxz-vol-sc creato sopra. Nota, la capacità di storage allocata è 1Gi, necessaria per i volumi FSx for OpenZFS, come indicato nelle domande frequenti sui driver CSI.
apiVersion: v1 kind: PersistentVolumeClaim metadata: name: dynamic-vol-pvc namespace: example spec: accessModes: - ReadWriteMany storageClassName: fsxz-vol-sc resources: requests: storage: 1Gi
Configura un pod per montare un volume utilizzando il Persistent Volume Claim (PVC) di dynamic-vol-pvc:
kind: Pod apiVersion: v1 metadata: name: fsx-app namespace: example spec: volumes: - name: dynamic-vol-pv persistentVolumeClaim: claimName: dynamic-vol-pvc containers: - name: app image: amazonlinux:2023 command: ["/bin/sh"] volumeMounts: - mountPath: "/mnt/fsxz" name: dynamic-vol-pv
Amazon EFS per cache di modelli condivisi
In scenari in cui disponi di un ambiente di calcolo con più istanze di calcolo GPU EC2 e carichi di lavoro dinamici che richiedono l'accesso condiviso al modello su più nodi e zone di disponibilità (ad esempio, inferenza online in tempo reale con Karpenter) con esigenze di prestazioni e scalabilità moderate, consigliamo di utilizzare un file system Amazon Elastic File System (EFS) come volume persistente tramite il driver CSI EFS. Amazon EFS è un file system NFS basato sul cloud completamente gestito, altamente disponibile e scalabile che abilita istanze e contenitori EC2 con storage di file condiviso, con prestazioni costanti e in cui non è richiesto il provisioning anticipato dello storage. Usa EFS come volume modello e monta il volume come file system condiviso definendo un volume persistente sul cluster EKS. Ogni Persistent Volume Claim (PVC) supportato da un file system EFS viene creato come EFS Access-point per il file system EFS. EFS consente a più nodi e pod di accedere agli stessi file di modello, eliminando la necessità di sincronizzare i dati con il file system di ciascun nodo. Installa il driver EFS CSI per integrare EFS con EKS.
Puoi implementare un file system Amazon EFS con le seguenti modalità di throughput:
-
Bursting Throughput: ridimensiona la velocità effettiva in base alle dimensioni del file system, adatta a carichi di lavoro diversi con picchi occasionali.
-
Provisioned Throughput: throughput dedicato, ideale per lavori di formazione ML coerenti con esigenze prestazionali prevedibili entro limiti.
-
Throughput elastico (consigliato per il machine learning): scalabilità automatica in base al carico di lavoro, conveniente per diversi carichi di lavoro ML.
Per visualizzare le specifiche prestazionali, consulta le specifiche prestazionali di Amazon EFS.
Considerazioni sulle prestazioni:
-
Usa Elastic Throughput per diversi carichi di lavoro.
-
Usa la classe di storage Standard per carichi di lavoro ML attivi.
Per esempi completi di utilizzo del file system Amazon EFS come volume persistente all'interno del cluster EKS e dei pod, consulta gli esempi di driver CSI EFS
Usa S3 Express One Zone per Latency-Sensitive flussi di lavoro orientati agli oggetti
Per i AI/ML carichi di lavoro sensibili alla latenza su Amazon EKS, come la formazione su modelli su larga scala, l'inferenza o l'analisi ad alte prestazioni, consigliamo di utilizzare S3 Express One Zone per lo storage e il recupero di modelli ad alte prestazioni. S3 Express One Zone offre uno spazio dei nomi gerarchico, simile a un file system, in cui è sufficiente caricare in un bucket di directory, adatto per «inserire tutto», mantenendo al contempo un'alta velocità. Ciò è particolarmente utile se siete abituati a flussi di lavoro orientati agli oggetti. In alternativa, se sei più abituato ai file system (ad es. POSIX-compliant), puoi preferire Amazon FSx for Lustre o OpenZFS. Amazon S3 Express One Zone archivia i dati in un'unica zona di disponibilità (AZ) utilizzando bucket di directory e offrendo una latenza inferiore rispetto ai bucket S3 standard, che distribuiscono i dati su più AZ. Per ottenere i migliori risultati, assicurati di collocare le tue risorse di calcolo EKS nella stessa zona del bucket Express One Zone. Per saperne di più sulle differenze di S3 Express One Zone, consulta Differenze per i bucket di directory.
Per accedere a S3 Express One Zone con la semantica del filesystem, consigliamo di utilizzare il driver CSI Mountpoint S3, che monta i bucket S3
Vantaggi prestazionali
-
Fornisce un accesso ai dati fino a 10 volte più veloce rispetto a S3 Standard, con una latenza costante di un millisecondo e costi di richiesta inferiori fino all'80%.
-
È scalabile per gestire da centinaia a milioni di richieste al secondo per bucket di directory, evitando i throttling o i brownout tipici di S3 standard durante carichi estremi (ad esempio, in cluster con decine o centinaia di migliaia di reti saturate). GPUs/CPUs
-
Utilizza un meccanismo di autenticazione basato sulla sessione. Effettua l'autenticazione una volta per ottenere un token di sessione, quindi esegui operazioni ripetute ad alta velocità senza sovraccarico di autenticazione per richiesta. È ottimizzato per carichi di lavoro come checkpoint frequenti o caricamento di dati.
Casi d'uso consigliati
-
Memorizzazione nella cache: uno dei principali casi d'uso dell'utilizzo del driver CSI Mountpoint S3 con S3 Express One Zone è la memorizzazione nella cache. La prima istanza legge i dati da S3 Standard (uso generico), memorizzandoli nella cache in Express One Zone a bassa latenza. Le letture successive da parte di altri client accedono più rapidamente ai dati memorizzati nella cache, il che è ideale per scenari a più nodi in cui più nodi EKS leggono gli stessi dati (ad esempio, set di dati di addestramento condivisi). Ciò può migliorare le prestazioni fino a 7 volte per gli accessi ripetuti e ridurre i costi di elaborazione. Per i carichi di lavoro che richiedono la piena conformità POSIX (ad esempio, blocco dei file e modifiche sul posto), prendi in considerazione Amazon FSx for Lustre o OpenZFS come alternative.
-
Large-Scale AI/ML formazione e inferenza: ideale per carichi di lavoro con centinaia o migliaia di nodi di elaborazione (ad esempio, GPU nei cluster EKS) in cui la limitazione generica di S3 potrebbe causare ritardi e sprecare costose risorse di elaborazione. Ad esempio, i ricercatori LLM o le organizzazioni che utilizzano modelli giornalieri traggono vantaggio da un accesso rapido e affidabile senza interrompere S3 regionale. tests/checkpoints Per carichi di lavoro su scala ridotta (ad esempio, decine di nodi), possono essere sufficienti S3 Standard o altre classi di storage.
-
Pipeline di dati: Load/prepare modelli, dati di addestramento di archivio o checkpoint di flusso. Se il tuo team preferisce lo storage di oggetti rispetto ai file system tradizionali (ad esempio, grazie alla familiarità con S3), utilizzalo invece di apportare modifiche tecniche per POSIX-compliant opzioni come FSx for Lustre.
Considerazioni
-
Resilienza: il Single-AZ design offre una durabilità del 99,95% (come lo standard S3, tramite ridondanza all'interno della zona di residenza) ma una disponibilità inferiore (progettazione al 99,95%, SLA al 99,9%) rispetto alle classi Multi-AZ (disponibilità del 99,99%). È meno resistente ai guasti AZ. Utilizzalo per dati ricreabili o memorizzati nella cache. Prendi in considerazione la replica o i backup Multi-AZ per carichi di lavoro critici.
-
Supporto per API e funzionalità: supporta un sottoinsieme di API S3 (ad esempio, nessuna policy o replica del ciclo di vita); potrebbe richiedere modifiche minori all'app per l'autenticazione della sessione o la gestione degli oggetti.
-
Integrazione EKS: Co-locate il tuo EKS si trova pods/nodes nella stessa AZ del bucket di directory per ridurre al minimo la latenza di rete. Usa i driver Mountpoint per Amazon S3 o CSI per l'accesso. Kubernetes-native
-
Test: verifica la latenza di recupero in un ambiente non di produzione per convalidare i miglioramenti delle prestazioni. Monitora il throttling negli scenari S3 standard (ad esempio, elevata saturazione della GPU) e confrontalo.
La classe di storage S3 Express One Zone è disponibile in più regioni e si integra con EKS per i carichi di lavoro che richiedono l'accesso agli oggetti senza attendere lo storage. Per ulteriori informazioni, consulta Guida introduttiva a S3 Express One Zone.