Amazon Web Services (AWS) ha anunciado la disponibilidad general de la asignación de cuotas de computación y memoria de forma granular a través de la gobernanza de tareas de SageMaker HyperPod. Esta nueva funcionalidad permite a los clientes optimizar la utilización de los clústeres de Amazon SageMaker HyperPod en el servicio Amazon Elastic Kubernetes Service (EKS), garantizando una distribución equitativa del uso de recursos y apoyando una asignación eficiente entre diferentes equipos y proyectos.
Este mecanismo de gestión de cuotas permite establecer y controlar límites en los recursos computacionales entre los usuarios y equipos, evitando que un solo grupo monopolice los recursos del clúster. Esto es particularmente importante en escenarios donde las restricciones presupuestarias juegan un papel crucial, ya que los clientes pueden necesitar asignar recursos de computación de manera justa entre varios equipos.
Con la gobernanza de tareas de HyperPod, los administradores pueden ahora asignar de forma granular recursos como GPU, vCPU y memoria de vCPU a equipos y proyectos, adaptándose a su estrategia preferida. Esto incluye la posibilidad de asignar cuotas de GPU a nivel de tipo de instancia y familia, así como asignaciones opcionales de CPU y memoria para un control más preciso de los recursos. Además, se pueden definir prioridades que afectan la asignación de recursos no utilizados entre los equipos.
Daniel Xu, Director de Producto en Snorkel AI, un referente en tecnología de datos de inteligencia artificial, destacó la importancia de esta innovación para maximizar la utilización de clústeres, especialmente en experimentos complejos y pipelines de producción. Según Xu, la capacidad de controlar el acceso a recursos compartidos como GPUs de última generación es fundamental para optimizar la eficiencia en el uso de los clústeres.
La implementación de esta característica sigue un flujo de trabajo familiar en la creación de asignaciones de recursos, donde los administradores pueden utilizar la consola de gestión de AWS para definir políticas que prioricen cargas de trabajo críticas y distribuyan la computación inactiva entre equipos. Esta capacidad es especialmente útil para equipos que realizan experimentos con modelos de inteligencia artificial, donde la eficiencia en la gestión de recursos puede tener un impacto significativo.
Amazon SageMaker HyperPod ahora admite clusters que incluyen instancias basadas en CPU y GPU, así como hardware AWS Neuron, permitiendo a los equipos especificar asignaciones de recursos de manera precisa. Esta flexibilidad mejorará la capacidad de las organizaciones para gestionar sus recursos de computación de forma más eficaz, respondiendo así a la creciente diversidad de necesidades en el ámbito del aprendizaje automático. Con esta nueva funcionalidad, AWS se posiciona como un líder en la optimización de infraestructuras de inteligencia artificial y aprendizaje automático, asegurando que los equipos tengan acceso a los recursos necesarios sin desperdicio.
vía: AWS machine learning blog