

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Marcos compatibles, Regiones de AWS, y tipos de instancias
<a name="distributed-data-parallel-support"></a>

Antes de usar la biblioteca de paralelismo de datos distribuidos por SageMaker IA (SMDDP), comprueba cuáles son los marcos de aprendizaje automático y los tipos de instancias compatibles y si hay suficientes cuotas en tu cuenta y. AWS Región de AWS

## Marcos admitidos
<a name="distributed-data-parallel-supported-frameworks"></a>

En las tablas siguientes se muestran los marcos de aprendizaje profundo y sus versiones compatibles con la IA y el SMDDP SageMaker . La biblioteca SMDDP está disponible en contenedores [SageMaker AI Framework, integrada en contenedores](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-containers-sm-support-only) [Docker distribuidos por la biblioteca de paralelismo de SageMaker modelos (SMP)](distributed-model-parallel-support-v2.md#distributed-model-parallel-supported-frameworks-v2) v2 o se puede descargar como un archivo binario.

**nota**  
Para ver las últimas actualizaciones y notas de la versión de la biblioteca de SMDDP, consulte las [SageMaker Notas de publicación de la biblioteca de paralelismo de datos de IA](data-parallel-release-notes.md).

**Topics**
+ [PyTorch](#distributed-data-parallel-supported-frameworks-pytorch)
+ [PyTorch Lightning](#distributed-data-parallel-supported-frameworks-lightning)
+ [Hugging Face Transformers](#distributed-data-parallel-supported-frameworks-transformers)
+ [TensorFlow (obsoleto)](#distributed-data-parallel-supported-frameworks-tensorflow)

### PyTorch
<a name="distributed-data-parallel-supported-frameworks-pytorch"></a>


| PyTorch versión | Versión de la biblioteca de SMDDP | SageMaker Imágenes de AI Framework Container preinstaladas con SMDDP | Imágenes de Docker de SMP preinstaladas con SMDDP | URL del archivo binario\*\* | 
| --- | --- | --- | --- | --- | 
| v2.3.1 | smdistributed-dataparallel==v2.5.0 | No disponible | 658645717510.dkr.ecr.{{<us-west-2>}}.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.4.1/cu121/2024-10-09/smdistributed\_dataparallel-2.5.0-cp311-cp311-linux\_x86\_64.whl | 
| v2.3.0 | smdistributed-dataparallel==v2.3.0 | 763104351884.dkr.ecr.{{<region>}}.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker | No disponible actualmente | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed\_dataparallel-2.3.0-cp311-cp311-linux\_x86\_64.whl | 
| v2.2.0 | smdistributed-dataparallel==v2.2.0 | 763104351884.dkr.ecr.{{<region>}}.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker | 658645717510.dkr.ecr.{{<region>}}.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed\_dataparallel-2.2.0-cp310-cp310-linux\_x86\_64.whl | 
| v2.1.0 | smdistributed-dataparallel==v2.1.0 | 763104351884.dkr.ecr.{{<region>}}.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker | 658645717510.dkr.ecr.{{<region>}}.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed\_dataparallel-2.1.0-cp310-cp310-linux\_x86\_64.whl | 
| v2.0.1 | smdistributed-dataparallel==v2.0.1 | 763104351884.dkr.ecr.{{<region>}}.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker | No disponible | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed\_dataparallel-2.0.2-cp310-cp310-linux\_x86\_64.whl | 
| v2.0.0 | smdistributed-dataparallel==v1.8.0 | 763104351884.dkr.ecr.{{<region>}}.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker | No disponible | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed\_dataparallel-1.8.0-cp310-cp310-linux\_x86\_64.whl | 
| Versión 1.13.1 | smdistributed-dataparallel==v1.7.0 | 763104351884.dkr.ecr.{{<region>}}.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker | No disponible | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed\_dataparallel-1.7.0-cp39-cp39-linux\_x86\_64.whl | 
| v1.12.1 | smdistributed-dataparallel==v1.6.0 | 763104351884.dkr.ecr.{{<region>}}.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker | No disponible | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed\_dataparallel-1.6.0-cp38-cp38-linux\_x86\_64.whl | 
| Versión 1.12.0 | smdistributed-dataparallel==v1.5.0 | 763104351884.dkr.ecr.{{<region>}}.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker | No disponible | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed\_dataparallel-1.5.0-cp38-cp38-linux\_x86\_64.whl | 
| v1.11.0 | smdistributed-dataparallel==v1.4.1 | 763104351884.dkr.ecr.{{<region>}}.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker | No disponible | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed\_dataparallel-1.4.1-cp38-cp38-linux\_x86\_64.whl | 

\*\* Las direcciones URL de los archivos binarios sirven para instalar la biblioteca de SMDDP en contenedores personalizados. Para obtener más información, consulte [Cree su propio contenedor Docker con la biblioteca paralela de datos distribuidos de SageMaker IA](data-parallel-bring-your-own-container.md).

**nota**  
La biblioteca SMDDP está disponible Regiones de AWS donde están en servicio los [contenedores de SageMaker AI Framework](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-containers-sm-support-only) y las imágenes de Docker [SMP](distributed-model-parallel-support-v2.md).

**nota**  
La biblioteca SMDDP, versión 1.4.0 y versiones posteriores, funciona como un servidor de paralelismo de datos distribuidos (torch.distributed) (torch.parallel). PyTorch DistributedDataParallel). De acuerdo con el cambio, las siguientes [API smdistributed](https://sagemaker.readthedocs.io/en/stable/api/training/sdp_versions/latest/smd_data_parallel_pytorch.html#pytorch-api) para el paquete PyTorch distribuido han quedado obsoletas.  
`smdistributed.dataparallel.torch.distributed` está en desuso. Utilice el paquete [torch.distributed](https://pytorch.org/docs/stable/distributed.html) en su lugar.
`smdistributed.dataparallel.torch.parallel.DistributedDataParallel` está en desuso. [Usa torch.nn.parallel. DistributedDataParallel](https://pytorch.org/docs/stable/generated/torch.nn.parallel.DistributedDataParallel.html) API en su lugar.
*Si necesitas usar las versiones anteriores de la biblioteca (v1.3.0 o anteriores), consulta la documentación [archivada sobre el paralelismo de datos distribuidos de SageMaker IA en la documentación](https://sagemaker.readthedocs.io/en/stable/api/training/sdp_versions/latest.html#documentation-archive) del SDK de Python para IA. SageMaker *

### PyTorch Lightning
<a name="distributed-data-parallel-supported-frameworks-lightning"></a>

La biblioteca SMDDP está disponible para PyTorch Lightning en los siguientes contenedores de SageMaker AI Framework PyTorch y en los contenedores SMP Docker.

**PyTorch Lightning v2**


| PyTorch Versión Lightning | PyTorch versión | Versión de la biblioteca de SMDDP | SageMaker Imágenes de AI Framework Container preinstaladas con SMDDP | Imágenes de Docker de SMP preinstaladas con SMDDP | URL del archivo binario\*\* | 
| --- | --- | --- | --- | --- | --- | 
| 2.2.5 | 2.3.0 | smdistributed-dataparallel==v2.3.0 | 763104351884.dkr.ecr.{{<region>}}.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker | No disponible actualmente | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed\_dataparallel-2.3.0-cp311-cp311-linux\_x86\_64.whl | 
| 2.2.0 | 2.2.0 | smdistributed-dataparallel==v2.2.0 | 763104351884.dkr.ecr.{{<region>}}.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker | 658645717510.dkr.ecr.{{<region>}}.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed\_dataparallel-2.2.0-cp310-cp310-linux\_x86\_64.whl | 
| 2.1.2 | 2.1.0 | smdistributed-dataparallel==v2.1.0 | 763104351884.dkr.ecr.{{<region>}}.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker | 658645717510.dkr.ecr.{{<region>}}.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed\_dataparallel-2.1.0-cp310-cp310-linux\_x86\_64.whl | 
| 2.1.0 | 2.0.1 | smdistributed-dataparallel==v2.0.1 | 763104351884.dkr.ecr.{{<region>}}.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker | No disponible | https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed\_dataparallel-2.0.2-cp310-cp310-linux\_x86\_64.whl | 

**PyTorch Lightning v1**


| PyTorch Versión Lightning | PyTorch versión | Versión de la biblioteca de SMDDP | SageMaker Imágenes de AI Framework Container preinstaladas con SMDDP | URL del archivo binario\*\* | 
| --- | --- | --- | --- | --- | 
| 1.7.2<br />1.7.0<br />1.6.4<br />1.6.3<br />1.5.10 | 1.12.0 | smdistributed-dataparallel==v1.5.0 | 763104351884.dkr.ecr. {{<region>}}.amazonaws. com/pytorch- formación: 1.12.0-gpu-py38-cu113-ubuntu 20.04-sagemaker | https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed\_dataparallel-1.5.0-cp38-cp38-linux\_x86\_64.whl | 

\*\* Las direcciones URL de los archivos binarios sirven para instalar la biblioteca de SMDDP en contenedores personalizados. Para obtener más información, consulte [Cree su propio contenedor Docker con la biblioteca paralela de datos distribuidos de SageMaker IA](data-parallel-bring-your-own-container.md).

**nota**  
PyTorch Lightning y sus bibliotecas de utilidades, como Lightning Bolts, no vienen preinstaladas en los DLC. PyTorch Cuando crees un PyTorch estimador de SageMaker IA y envíes una solicitud de trabajo de formación en el [paso 2](https://docs.aws.amazon.com/sagemaker/latest/dg/data-parallel-use-api.html#data-parallel-framework-estimator), tendrás que proporcionarlo para instalarlo `pytorch-lightning` e incluirlo `lightning-bolts` en el `requirements.txt` SageMaker contenedor de formación en IA. PyTorch  

```
# requirements.txt
pytorch-lightning
lightning-bolts
```
Para obtener más información sobre cómo especificar el directorio de origen para colocar el `requirements.txt` archivo junto con el guion de entrenamiento y el envío de un trabajo, consulte [Uso de bibliotecas de terceros](https://sagemaker.readthedocs.io/en/stable/frameworks/pytorch/using_pytorch.html#id12) en la *documentación del SDK de Python de Amazon SageMaker AI*.

### Hugging Face Transformers
<a name="distributed-data-parallel-supported-frameworks-transformers"></a>

Los AWS Deep Learning Containers de Hugging Face utilizan SageMaker los contenedores PyTorch de TensorFlow formación como imágenes base. Para buscar las versiones y versiones PyTorch combinadas de la biblioteca Hugging Face Transformers, consulta las versiones más recientes de [Hugging Face Containers TensorFlow y las versiones anteriores de Hugging](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#huggingface-training-containers) [Face Container](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#prior-hugging-face-container-versions).

### TensorFlow (obsoleto)
<a name="distributed-data-parallel-supported-frameworks-tensorflow"></a>

**importante**  
La biblioteca SMDDP dejó de ofrecer soporte a los DLC TensorFlow y dejó de estar disponible en ellos a partir de la versión 2.11.0. TensorFlow En la siguiente tabla se enumeran los DLC anteriores con la biblioteca SMDDP instalada. TensorFlow 


| TensorFlow versión | Versión de la biblioteca de SMDDP | 
| --- | --- | 
| 2.9.1, 2.10.1, 2.11.0 |  smdistributed-dataparallel==v1.4.1  | 
| 2.8.3 |  smdistributed-dataparallel==v1.3.0  | 

## Regiones de AWS
<a name="distributed-data-parallel-availablity-zone"></a>

La biblioteca SMDDP está disponible en todos los Regiones de AWS lugares donde estén en servicio los [AWS Deep Learning Containers for SageMaker AI](https://github.com/aws/deep-learning-containers/blob/master/available_images.md#sagemaker-framework-containers-sm-support-only) y las [imágenes SMP Docker](distributed-model-parallel-support-v2.md).

## Tipos de instancias admitidas
<a name="distributed-data-parallel-supported-instance-types"></a>

La biblioteca de SMDDP requiere uno de los siguientes tipos de instancia.


| Tipo de instancia | 
| --- | 
| ml.p3dn.24xlarge\* | 
| ml.p4d.24xlarge | 
| ml.p4de.24xlarge | 

**sugerencia**  
Para ejecutar correctamente la capacitación distribuida sobre los tipos de EFA-enabled instancias, debe habilitar el tráfico entre las instancias configurando el grupo de seguridad de su VPC para permitir todo el tráfico entrante y saliente hacia y desde el propio grupo de seguridad. Para obtener información sobre cómo configurar las reglas de los grupos de seguridad, consulte el [paso 1: Preparar un grupo de EFA-enabled seguridad](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/efa-start.html#efa-start-security) en la Guía del *usuario de Amazon EC2*.

**importante**  
\* Se ha dejado de admitir la biblioteca de SMDDP para la optimización de sus operaciones de comunicación colectiva en las instancias P3. Si bien puede seguir utilizando el colectivo `AllReduce` optimizado para SMDDP en instancias de `ml.p3dn.24xlarge`, no habrá más compatibilidad de desarrollo para mejorar el rendimiento en este tipo de instancias. Tenga en cuenta que el colectivo `AllGather` optimizado para SMDDP solo está disponible para instancias P4.

Para ver las especificaciones de los tipos de instancias, consulte la sección **Computación acelerada** en la [página de tipos de instancias de Amazon EC2](https://aws.amazon.com/ec2/instance-types/). Para obtener información sobre los precios de las instancias, consulta [Amazon SageMaker Pricing](https://aws.amazon.com/sagemaker/pricing/).

Si te aparece un mensaje de error similar al siguiente, sigue las instrucciones que se indican en [Solicitar un aumento de la cuota de servicio para los recursos de SageMaker IA](https://docs.aws.amazon.com/sagemaker/latest/dg/regions-quotas.html#service-limit-increase-request-procedure).

```
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling
the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge
for training job usage' is 0 Instances, with current utilization of 0 Instances
and a request delta of 1 Instances.
Please contact AWS support to request an increase for this limit.
```