Operar un servidor de seguimiento de MLflow autogestionado conlleva una carga administrativa considerable, que incluye el mantenimiento del servidor y la escalabilidad de los recursos. A medida que los equipos amplían sus experimentos de aprendizaje automático (ML), gestionar de manera eficiente los recursos durante los períodos de máxima utilización y los momentos de inactividad se convierte en un desafío. Las organizaciones que ejecutan MLflow en Amazon EC2 o en servidores locales pueden optimizar costos y recursos de ingeniería al utilizar Amazon SageMaker AI con MLflow sin servidor.
La reciente guía publicada proporciona un camino claro para migrar un servidor de seguimiento MLflow autogestionado a una aplicación MLflow – una solución sin servidor en SageMaker AI que ajusta automáticamente los recursos según la demanda y elimina tareas de gestión de servidores y almacenamiento sin coste adicional. Esta guía incluye instrucciones sobre cómo utilizar la herramienta MLflow Export Import para transferir experimentos, ejecuciones, modelos y otros recursos de MLflow, junto con indicaciones para validar el éxito de la migración.
Aunque el enfoque principal de la guía se centra en la migración de servidores de seguimiento MLflow autogestionados a SageMaker con MLflow, la herramienta MLflow Export Import ofrece una utilidad más amplia. Se puede aplicar el mismo enfoque para migrar servidores de seguimiento MLflow administrados en SageMaker a la nueva capacidad sin servidor de MLflow. Además, la herramienta facilita las actualizaciones de versión y el establecimiento de rutinas de respaldo para la recuperación ante desastres.
La migración se lleva a cabo en tres fases principales: exportación de los artefactos MLflow a un almacenamiento intermedio, configuración de una aplicación MLflow y la importación de los artefactos. Se puede ejecutar el proceso de migración desde una instancia de EC2, un ordenador personal o un cuaderno de SageMaker. El entorno seleccionado debe mantener la conectividad tanto con el servidor de seguimiento de origen como con el de destino.
Antes de iniciar la migración, es necesario verificar la compatibilidad de la versión de MLflow, asegurando que se cuenta con versiones soportadas tanto en el servidor original como en el nuevo entorno en SageMaker. Se recomienda contar con la última versión de MLflow capaz de ser utilizada en Amazon SageMaker para facilitar el proceso.
Tras la creación de una nueva aplicación MLflow en SageMaker, el siguiente paso implica instalar MLflow y el plugin de SageMaker en el entorno de ejecución. Esto garantiza que se establece correctamente la conexión con la nueva aplicación. Posteriormente, la instalación de la herramienta MLflow Export Import es crucial para proceder con la exportación de los recursos necesarios y su posterior importación al nuevo entorno.
Finalmente, es fundamental validar que todos los recursos de MLflow han sido transferidos correctamente. Esto incluye asegurarse de que los experimentos y ejecuciones se encuentren completos, y que los artefactos de modelo sean accesibles. En caso de una migración a gran escala, se aconseja dividir el proceso en lotes más pequeños para facilitar la gestión.
Es importante tener en cuenta que un servidor de seguimiento administrado por SageMaker incurrirá en costos hasta que sea eliminado o detenido. Para evitar gastos innecesarios, se sugiere detener los servidores de seguimiento cuando no estén en uso o proceder a su eliminación.
La migración a una aplicación MLflow sin servidor en Amazon SageMaker AI reduce la sobrecarga operativa asociada con el mantenimiento de la infraestructura de MLflow, proporcionando una integración fluida con los variados servicios de AI/ML ofrecidos por SageMaker. Para aquellos interesados en realizar su propia migración, se les invita a seguir la guía paso a paso y consultar la documentación referenciada para obtener detalles adicionales.
vía: AWS machine learning blog





