En el evento AWS re:Invent 2024, Amazon Web Services ha revelado una nueva funcionalidad para Amazon SageMaker: Container Caching, diseñada para mejorar la velocidad de escalado de los modelos de inteligencia artificial generativa durante la inferencia. Este avance se presenta como una respuesta a la creciente complejidad y tamaño de los modelos de inteligencia artificial y los contenedores que los albergan, que hasta ahora representaban un desafío significativo en términos de eficiencia de despliegue y escalado.
Con la implementación de Container Caching, AWS asegura una reducción notable en el tiempo de latencia asociado al escalado de estos modelos. En términos específicos, se espera una disminución de hasta un 56% en la latencia al escalar una copia de un modelo existente y hasta un 30% al añadir un modelo a una nueva instancia. Estos beneficios son observables en una variedad de contenedores de aprendizaje profundo proporcionados por SageMaker, como los contenedores de Inferencia de Modelos Grandes (LMI), PyTorch, NVIDIA Triton y Hugging Face TGI.
La importancia de optimizar los tiempos de inicio de los contenedores radica en garantizar que los usuarios finales no experimenten afectaciones negativas al aumentar la demanda de inferencia. Previamente, el tiempo requerido para descargar imágenes de contenedores desde Amazon Elastic Container Registry podría tomar varios minutos, un retraso inaceptable durante picos de tráfico. La nueva función de pre-almacenamiento en caché de contenedores elimina la necesidad de estas descargas, favoreciendo tiempos de escalado más rápidos durante los eventos de demanda intensa y optimizando la utilización de los recursos computacionales, incluidos los costosos y limitados recursos de GPU.
Las pruebas realizadas sugieren que esta innovación provee mejoras consistentes y significativas. Por ejemplo, al desplegar el modelo Llama3.1 70B, los tiempos de escalado globales se redujeron de 379 segundos (6.32 minutos) a 166 segundos (2.77 minutos), representando una mejora del 56%. Este avance permite manejar picos de tráfico de manera más eficaz y predecible, disminuyendo el impacto en la latencia para el usuario final en toda la infraestructura de aprendizaje automático de AWS.
Container Caching se habilita automáticamente para los DLCs de SageMaker soportados, asegurando que los usuarios tengan acceso rápido a los entornos más recientes y optimizados para sus modelos. Esto se traduce, no solo en una mejora en la rapidez del escalado, sino también en una reducción de costos potenciales debido a la disminución del tiempo de inactividad y el uso más eficiente de los recursos. Con esta mejora, AWS consolida su liderazgo en el soporte a tareas de inferencia de IA generativa, facilitando su implementación y operación bajo la infraestructura de SageMaker.
vía: AWS machine learning blog