Amazon SageMaker Inference se ha consolidado como una herramienta popular para el despliegue de modelos avanzados de aprendizaje automático (ML) y de inteligencia artificial generativa a gran escala. A medida que las aplicaciones de IA se vuelven cada vez más complejas, los usuarios demandan la capacidad de desplegar múltiples modelos en un grupo coordinado que procese solicitudes de inferencia de manera colectiva. Con la evolución de las aplicaciones de IA generativa, muchos casos de uso requieren flujos de trabajo de inferencia que involucran secuencias de modelos interconectados operando en caminos lógicos predefinidos. Esta tendencia resalta la necesidad creciente de ofertas de inferencia más sofisticadas.
Para atender esta demanda, se ha introducido una nueva capacidad en el SageMaker Python SDK que revoluciona la forma en que se construyen y despliegan flujos de trabajo de inferencia en SageMaker. Utilizando Amazon Search como ejemplo, esta función facilita a los clientes la creación de dichos flujos de trabajo. Esta nueva capacidad en el SDK proporciona una experiencia simplificada que abstrae las complejidades subyacentes del empaquetado y despliegue de grupos de modelos y su lógica de inferencia colectiva, permitiendo a los desarrolladores concentrarse en lo que realmente importa: su lógica de negocio e integraciones de modelos.
El nuevo SDK incluye mejoras clave para la creación y gestión de flujos de trabajo de inferencia. Una de las principales innovaciones es el despliegue de múltiples modelos como componentes de inferencia dentro de un único punto final de SageMaker. Esta integración permite crear un flujo de trabajo de inferencia más unificado, reduciendo el número de puntos finales que deben gestionarse, mejorando así las tareas operativas y potencialmente recortando costos.
Otra característica destacada es el modo de flujo de trabajo, que extiende las capacidades existentes con el Model Builder. Los usuarios pueden definir flujos de trabajo de inferencia utilizando código en Python, facilitando la creación de flujos de trabajo de múltiples pasos y la conexión entre modelos. Esta flexibilidad se complementa con nuevas opciones de desarrollo y despliegue, que permiten un despliegue más rápido en entornos de desarrollo, ideal para experimentar con diferentes configuraciones o ajustes en los modelos.
Con un enfoque centrado en la gestión eficiente de dependencias, los usuarios pueden aprovechar los contenedores de aprendizaje profundo de SageMaker, que vienen configurados con diversas bibliotecas y herramientas de servicio de modelos, proporcionando un punto de partida para casos de uso comunes.
La posibilidad de invocar modelos individuales o flujos de trabajo completos brinda una flexibilidad valiosa para adaptarse a necesidades específicas de acceso o ejecución parcial. Esto es particularmente útil en escenarios donde se requiere interactuar con un modelo específico sin comprometer todo el sistema.
Amazon Search, uno de los primeros adoptantes de estas mejoras, ha destacado cómo las nuevas capacidades del SDK se alinean con sus requerimientos para los flujos de trabajo de clasificación, permitiendo la reutilización eficiente de modelos compartidos a través de varios flujos de trabajo mientras adapta la lógica para diferentes categorías de productos. Con esta funcionalidad, Amazon busca optimizar aún más su infraestructura de búsqueda, permitiendo a su equipo iterar rápidamente en sus algoritmos de coincidencia y clasificación.
En resumen, las nuevas mejoras en el SageMaker Python SDK para flujos de trabajo de inferencia marcan un avance significativo en la forma en que se desarrollan y despliegan flujos de trabajo complejos de IA. Al abstraer las complejidades subyacentes, estas mejoras permiten a los usuarios centrarse en la innovación y la eficiencia en lugar de en la gestión de infraestructuras.
vía: AWS machine learning blog