Nuevo Escalado Automático Más Rápido Para Modelos Generativos de IA en Amazon SageMaker

0
64
Amazon SageMaker inference launches faster auto scaling for generative AI models

Hoy se ha anunciado una nueva capacidad en Amazon SageMaker que promete reducir significativamente el tiempo necesario para que los modelos de inteligencia artificial generativa escalen automáticamente. Ahora es posible utilizar métricas de menos de un minuto para reducir considerablemente la latencia en el escalado de estos modelos, mejorando así la capacidad de respuesta de las aplicaciones de IA generativa ante fluctuaciones en la demanda.

El auge de los modelos fundacionales y los grandes modelos de lenguaje ha introducido nuevos desafíos en la implementación de inferencias de IA generativa. Estos modelos avanzados pueden tardar segundos en procesar y, en ocasiones, manejar un número limitado de solicitudes concurrentes. Esto crea una necesidad crítica de detección rápida y escalado automático para mantener la continuidad del negocio. Las organizaciones buscan soluciones integrales que reduzcan costos de infraestructura, minimicen la latencia y maximicen el rendimiento para satisfacer las demandas de estos modelos sofisticados, prefiriendo centrar sus esfuerzos en resolver problemas de negocio en lugar de construir plataformas de inferencia complejas desde cero.

SageMaker ofrece capacidades líderes en la industria para abordar estos desafíos de inferencia. Sus endpoints optimizan el uso de aceleradores, reduciendo los costos de despliegue de modelos fundacionales en un 50% y la latencia en un 20% de media. El kit de herramientas de optimización de inferencia en SageMaker puede duplicar el rendimiento y reducir los costos en aproximadamente un 50% para la IA generativa. Además, SageMaker ofrece soporte para streaming en tiempo real para los grandes modelos de lenguaje, permitiendo un menor tiempo de espera percibido y experiencias de IA generativa más receptivas, cruciales para aplicaciones como los asistentes conversacionales de IA.

Para optimizar cargas de trabajo de inferencia en tiempo real, SageMaker emplea la escalabilidad automática de aplicaciones, ajustando dinámicamente el número de instancias utilizadas y la cantidad de copias de modelos desplegadas en respuesta a cambios en la demanda. Con esta nueva capacidad, los endpoints en tiempo real de SageMaker ahora emiten dos nuevas métricas de Amazon CloudWatch: ConcurrentRequestsPerModel y ConcurrentRequestsPerCopy. Estas métricas proporcionan una representación más precisa de la carga en el sistema, permitiendo una respuesta más rápida al aumentar el despliegue de contenedores o instancias para manejar la mayor carga de trabajo.

Además, SageMaker permite respuestas en streaming de los modelos desplegados, dirigiendo a los clientes a instancias menos ocupadas y evitando sobrecargas. Este seguimiento de concurrencia asegura que se trate de manera equitativa las solicitudes en curso y en cola, permitiendo que el despliegue del modelo escale proactivamente para mantener un rendimiento óptimo.

Al utilizar estas nuevas métricas, el escalado automático se puede invocar y escalar significativamente más rápido que antes, permitiendo a las organizaciones reaccionar ante aumentos de demanda en menos de un minuto. Esto es especialmente beneficioso para los modelos de IA generativa, que suelen estar limitados por la concurrencia y pueden tardar varios segundos en completar cada solicitud de inferencia.

Para comenzar a usar estas métricas y beneficiarse del escalado más rápido, se debe seguir un conjunto de pasos definidos que incluyen la creación de un endpoint en SageMaker, definir un nuevo objetivo de escalado y configurar una política de escalado. Estos pasos permiten que el tráfico sea monitoreado, evaluado y que el endpoint escale según las necesidades de demanda en tiempo real, ayudando a mantener un rendimiento óptimo y reducir los tiempos de cola.

Finalmente, con estos avances en métricas y escalado automático, los endpoints de inferencia en tiempo real de SageMaker pueden reaccionar rápidamente y manejar incrementos en el tráfico de manera eficiente, minimizando el impacto en los clientes y optimizando los recursos.
vía: AWS machine learning blog