Durante la conferencia AWS re:Invent 2024, Amazon Web Services (AWS) presentó una innovación significativa en Amazon SageMaker HyperPod, que ahora funciona en conjunto con Amazon Elastic Kubernetes Service (EKS). Esta nueva funcionalidad permite llevar a cabo tareas de desarrollo de inteligencia artificial generativa de manera más eficiente en recursos de computación acelerada compartidos, ofreciendo un potencial ahorro de costos de hasta el 40%.
La gobernanza de tareas de SageMaker HyperPod otorga a los administradores la capacidad de gestionar la asignación de recursos de computación acelerada a equipos y proyectos, además de establecer políticas que prioricen diversos tipos de tareas. Esto permite a las organizaciones centrarse en impulsar su innovación en inteligencia artificial generativa y reducir el tiempo para llevar productos al mercado, en lugar de enfrentarse a la complejidad de coordinar la asignación de recursos.
AWS también compartió mejores prácticas para maximizar el valor de esta herramienta, asegurando que la experiencia de administración y la de los científicos de datos sean fluidas. Un aspecto destacado es la administración de la capacidad de cómputo, donde los administradores pueden establecer asignaciones específicas para cada equipo, determinando qué tipo de tareas realizan y cuáles son sus prioridades respecto a otros grupos. La asignación de peso y las estrategias de cuota permiten gestionar de manera óptima el uso del recurso compartido.
La observabilidad del sistema se facilita mediante un tablero que muestra la utilización de recursos, permitiendo a los administradores tener una visión clara del rendimiento del cluster, con opciones de añadir herramientas como Amazon Managed Prometheus y Grafana para un análisis más profundo.
Los científicos de datos, por su parte, necesitan asegurar acceso adecuado y control en esta infraestructura. Con el uso de roles basados en control de acceso, los equipos pueden gestionar mejor sus permisos, lo que les permite enviar tareas con las priorizaciones adecuadas. Además, se han introducido herramientas como HyperPod CLI, que simplifican la interacción con el sistema y permiten a los usuarios experimentar y ajustar sus tareas de manera más ágil.
SageMaker HyperPod también ofrece escenarios prácticos que muestran cómo las empresas y startups pueden optimizar la utilización de recursos y tiempos de espera en sus tareas. Este sistema, diseñado para escalabilidad y eficiencia, promete ser un gran aliado para quienes desarrollan soluciones avanzadas de inteligencia artificial en la nube.
vía: AWS machine learning blog