Amazon ha lanzado oficialmente la partición de GPU en su servicio SageMaker HyperPod, utilizando la tecnología Multi-Instance GPU (MIG) de NVIDIA. Esta nueva capacidad permite ejecutar múltiples tareas de manera concurrente en una sola GPU, optimizando así el uso de recursos informáticos y de memoria, y reduciendo los ciclos de desarrollo y despliegue. Al permitir que más usuarios y tareas accedan simultáneamente a los recursos de GPU, las organizaciones pueden gestionar un diverso conjunto de cargas de trabajo en paralelo sin necesidad de esperar a que se dispongan de GPUs completas.
El uso de recursos de computación acelerada es esencial para los científicos de datos, quienes pueden realizar tareas de inferencia, investigación y experimentación en notebooks de Jupyter sin necesidad de dedicar GPUs completas a trabajos ligeros. Esto se traduce en una mayor eficiencia en la ejecución. Los administradores de clústeres también se benefician, ya que pueden permitir que diferentes perfiles de usuario —como científicos de datos e ingenieros de aprendizaje automático— realicen más cargas de trabajo sin sacrificar el rendimiento o la seguridad, maximizando la utilización del clúster.
La funcionalidad de MIG, que NVIDIA presentó en 2020, permite segmentar un único GPU en varias unidades más pequeñas. Cada partición MIG funciona como una instancia de GPU independiente, lo que facilita la ejecución de tareas múltiples sin conflictos de recursos. Este enfoque resulta especialmente ventajoso para tareas que no requieren todo el poder de una GPU moderna.
Con la integración de MIG en SageMaker HyperPod, se resuelven importantes desafíos relacionados con la gestión de recursos de GPU, tales como la simplificación en la configuración, la optimización del uso de recursos, la garantía de aislamiento de las cargas de trabajo, la eficiencia de costos, y la capacidad para rastrear métricas de rendimiento en tiempo real. Además, se permite gestionar cuotas de recursos de computación de manera más granular entre equipos.
Arthur Hussey, miembro del equipo técnico en Orbital Materials, una startup del Reino Unido, comentó que el uso de SageMaker HyperPod con tecnología de particionamiento MIG ha aumentado significativamente la eficiencia de su clúster, permitiéndoles maximizar el número de tareas ejecutadas en paralelo.
La implementación de MIG en SageMaker HyperPod es útil para organizaciones que buscan asignar instancias de alto rendimiento a varios usuarios o tareas en entornos aislados, mejorando así la eficiencia y aprovechamiento de la infraestructura de GPU. En un entorno donde se despliegan múltiples versiones de un modelo, la capacidad de asociar cada modelo a un tipo de instancia MIG adecuada representa una mejora sustancial en la eficiencia operacional.
En conclusión, la disponibilidad de MIG en SageMaker HyperPod significa un avance significativo en la gestión de recursos de aprendizaje automático, con el potencial de reducir costos y aumentar la productividad. Las organizaciones que utilicen estas capacidades podrán mejorar su rendimiento en el desarrollo y despliegue de modelos de aprendizaje automático, optimizando el uso de clústeres de GPU.
vía: AWS machine learning blog





