En la actualidad, la creciente demanda de soluciones de inteligencia artificial (IA) y aprendizaje automático (ML) ha impulsado una necesidad esencial en el ámbito empresarial: optimizar los procesos de formación, despliegue y escalado de estos modelos. Si bien el avance en IA, especialmente en el terreno de la inteligencia generativa, avanza a pasos agigantados, las herramientas para operaciones de aprendizaje automático (MLOps) continúan evolucionando para mantenerse al día. Los clientes están en búsqueda de historias de éxito que expliquen cómo adoptar con eficacia una cultura y soluciones operativas novedosas que respalden a sus científicos de datos. Las soluciones, idealmente, deben ser flexibles, permitir una integración fluida con otros sistemas y ofrecer un camino para automatizar las MLOps utilizando servicios de AWS y herramientas de terceros, tal como analizaremos a continuación con Pulumi y Datadog.
Crexi, un mercado digital para transacciones de bienes raíces comerciales, es un ejemplo de cómo se han cumplido con estas necesidades empresariales. A través del desarrollo de un marco versátil y potente para la creación y despliegue de tuberías de IA/ML, Crexi ha conseguido que sus modelos de ML se despleguen y gestionen eficientemente, satisfaciendo múltiples requisitos de proyectos.
Datadog, un servicio de monitorización para aplicaciones a escala en la nube, y Pulumi, una plataforma moderna de infraestructura como código (IaC), juegan un papel crucial en este escenario. Mientras que Datadog facilita la colaboración entre los equipos de desarrollo y operaciones para evitar momentos de inactividad y resolver problemas de rendimiento, Pulumi permite manejar los recursos de la nube con idiomas de programación populares y simplificar la provisión, entrega y pruebas en la nube.
El núcleo de la infraestructura de Crexi se basa en disparadores de AWS Lambda que llaman de manera asíncrona a los endpoints de Amazon SageMaker para ejecutar la lógica de inferencia de cualquier modelo. Los resultados finales de estos procesos se dirigen al almacenamiento en Amazon S3 y Amazon Data Firehose para asegurar una integración sin complicaciones en otros sistemas.
Crexi, para asegurar un despliegue rápido y eficiente de sus modelos de ML, ha establecido una infraestructura de integración y despliegue continuo (CI/CD), gestionada a través de Pulumi, que no solo facilita el retroceso de pipelines si se detectan errores, sino que también se encarga de la supervisión de la salud de las tuberías, asegurando la identificación proactiva de problemas.
La implementación en Crexi se lleva a cabo mediante acciones de GitHub que ejecutan scripts de Pulumi en un formato de CI/CD para desplegar, actualizar y destruir las pipeline de ML, asegurando una infraestructura reproducible y libre de regresiones de código.
Por otro lado, la monitorización de estas pipelines, realizadas a través de un avanzado tablero de Datadog, permite una evaluación en tiempo real y un análisis histórico sencillo del estado de salud de las tuberías, simplificando la detección y solución rápida de cuellos de botella y errores potenciales.
Este marco de despliegue de pipelines no solo se ajusta a las necesidades de IA/ML de Crexi, sino que también establece las bases para una innovación continua, permitiendo que las operaciones actuales mejoren y se alineen con la experimentación y desarrollo de nuevas técnicas.
En conclusión, Crexi se ha posicionado a la vanguardia en el uso de MLOps, controlando de manera eficiente la complejidad de los despliegues y asegurando un ciclo iterativo de mejora y experimentación que impulsará sus proyectos en el futuro.
vía: AWS machine learning blog