Construyendo Flujos de Trabajo de IA en Amazon EKS con Union.ai y Flyte

0
1
Build AI workflows on Amazon EKS with Union.ai and Flyte

La creciente complejidad y escala de los flujos de trabajo de inteligencia artificial y aprendizaje automático (AI/ML) ha llevado a que muchos proyectos enfrenten dificultades al intentar trasladarse de la fase piloto a la producción. Estas iniciativas a menudo no fracasan por la calidad de los modelos, sino debido a infraestructuras y procesos fragmentados que complican su gestión. Esto genera que el código inicial de los proyectos se vuelva obeso al tener que adaptarse a requisitos adicionales, lo que dificulta a científicos de datos e ingenieros trasladar sus modelos de desarrollo local a entornos de producción y reproducir los resultados obtenidos durante la fase piloto.

Para abordar estos desafíos, se presenta el Flyte Python SDK, una herramienta diseñada para orquestar y escalar flujos de trabajo de AI/ML. La nueva versión del sistema de Union.ai permite implementar Flyte en Amazon Elastic Kubernetes Service (Amazon EKS), integrándose de manera fluida con otros servicios de AWS como Amazon S3, Amazon Aurora, AWS Identity and Access Management (IAM) y Amazon CloudWatch. Esta solución se puede ejemplificar a través de un flujo de trabajo de AI utilizando el nuevo servicio de Amazon S3 Vectors.

Al ejecutar flujos de trabajo de AI/ML sobre Kubernetes, se presentan varios retos de orquestación, incluyendo la complejidad de la infraestructura, la brecha entre la experimentación y la producción, la reproducibilidad de resultados, la gestión de costos y la fiabilidad ante fallos. Un enfoque específico para resolver estos problemas, como el que ofrece Union.ai 2.0, es esencial para facilitar el desarrollo y la implementación de modelos de AI en entornos complejos.

Union.ai 2.0 transforma la orquestación de cargas de trabajo en Amazon EKS, permitiendo que los flujos de trabajo en Python escalen desde laptops a clústeres con una ejecución dinámica y un enfoque en la reproducibilidad. Las características clave de esta solución incluyen una lógica de orquestación escrita en Python con una reducción del 66% en el código necesario en comparación con otros orquestadores, la capacidad de tomar decisiones en tiempo real en ejecución y una recuperación rápida ante fallos sin intervención manual.

Con una arquitectura híbrida que combina simplicidad gestionada con control total de datos, Union.ai 2.0 elimina la complejidad de gestionar la infraestructura de Kubernetes, lo que permite a los equipos enfocarse en la construcción de modelos y aplicaciones de AI. Además, integra componentes críticos como el plano de control y el plano de datos, garantizando una gestión eficiente y segura de los flujos de trabajo, desde la ejecución hasta el almacenamiento y la supervisión.

El ejemplo más destacado de esta tecnología en acción es la implementación realizada por Woven by Toyota, que al migrar a Union.ai vio mejoras significativas en la velocidad de los ciclos de iteración de ML, ahorros importantes en costos y un aumento en la escala de procesamiento de datos. A medida que la integración de Amazon S3 Vectors simplifica la gestión de datos vectoriales a gran escala, las organizaciones tienen la oportunidad de aprovechar modelos de AI avanzados y escalables sin las complicaciones inherentes a la gestión de infraestructuras dispares.

En conclusión, con soluciones como Union.ai y Flyte, se sientan las bases para una orquestación confiable y escalable de AI en entornos de producción, permitiendo a las empresas centrarse en el desarrollo de sistemas autónomos y la formación de modelos de aprendizaje automático a gran escala.
vía: AWS machine learning blog