Amazon SageMaker HyperPod: Mejora la Infraestructura de ML con Escalabilidad y Personalización

0
5
Amazon SageMaker HyperPod enhances ML infrastructure with scalability and customizability

Amazon ha lanzado SageMaker HyperPod, una infraestructura específica para optimizar el entrenamiento y la inferencia de modelos de aprendizaje automático (ML) a gran escala. Esta nueva solución busca eliminar las complicaciones asociadas con la construcción y optimización de la infraestructura de ML, permitiendo reducir el tiempo de entrenamiento hasta en un 40%.

SageMaker HyperPod promueve la creación de clústeres persistentes con resiliencia incorporada, y otorga control profundo sobre la infraestructura, permitiendo a los usuarios acceder a las instancias de Amazon Elastic Compute Cloud (EC2) a través de SSH. Esto se traduce en una optimización de tareas relacionadas con el desarrollo y despliegue de modelos, como el entrenamiento y la fine-tuning, permitiendo gestionar clústeres que abarcan cientos o miles de aceleradores de IA, al tiempo que facilita la adherencia a las políticas de seguridad y las normas operativas de las grandes empresas.

Una de las características más destacadas de esta plataforma es el soporte para Amazon Elastic Kubernetes Service (EKS) y su reciente incorporación de la «provisión continua». Este enfoque incrementa la escalabilidad de los clústeres mediante la capacidad de realizar provisiones parciales y actualizaciones en marcha, así como el escalado concurrente, lo que proporciona a las organizaciones una flexibilidad sin precedentes en su operación.

Además, SageMaker HyperPod permite el uso de Amazon Machine Images (AMIs) personalizadas, lo que facilita la preconfiguración de pilas de software, agentes de seguridad y dependencias específicas de cada organización. Esto es especialmente relevante para las empresas que requieren ambientes especializados que cumplan con sus estándares operativos y de seguridad.

Con la provisión continua, los equipos de ML ahora pueden comenzar a entrenar y desplegar modelos con los recursos computacionales disponibles, mientras la plataforma trabaja de fondo para completar la provisión de recursos solicitados, reduciendo así significativamente los tiempos de espera.

La nueva característica de AMIs personalizadas brinda un control granular que permite a las organizaciones alinear sus ambientes de ML con los estándares de seguridad corporativa y los requisitos de software, acelerando así iniciativas de inteligencia artificial y reduciendo la sobrecarga operativa.

En resumen, las mejoras introducidas en SageMaker HyperPod potencian la escalabilidad y la personalización de la infraestructura de ML, ofreciendo a las empresas herramientas avanzadas para optimizar sus procesos de desarrollo en un entorno en constante evolución.
vía: AWS machine learning blog