Amazon SageMaker AI en 2025: Un Año en Revisión – Parte 1: Planes de Entrenamiento Flexibles y Mejoras en la Relación Precio-Rendimiento para Cargas de Trabajo de Inferencia

0
1
Amazon SageMaker AI in 2025, a year in review part 1: Flexible Training Plans and improvements to price performance for inference workloads

En 2025, Amazon SageMaker AI experimentó mejoras significativas en su infraestructura central, enfocándose en la capacidad, el rendimiento de precios, la observabilidad y la usabilidad. Estas mejoras están diseñadas para optimizar la implementación de modelos de inteligencia artificial, especialmente en tareas de inferencia.

Una de las innovaciones más destacadas es el lanzamiento de los Planes de Entrenamiento Flexibles. Esta funcionalidad permite a los equipos reservar capacidad de cómputo específica para el despliegue de modelos de lenguaje a gran escala (LLMs), asegurando una disponibilidad fiable de recursos GPU en periodos críticos. El flujo de trabajo para realizar estas reservas es sencillo y flexible, permitiendo a los usuarios seleccionar el tipo de instancia, cantidad y duración deseada. Este enfoque ayuda a las organizaciones a superar las restricciones de capacidad que pueden retrasar los despliegues y afectar el rendimiento de las aplicaciones, especialmente en horas pico.

Además, SageMaker AI ha mejorado el rendimiento de precios mediante la implementación de capacidades que optimizan la economía de la inferencia. Entre estas mejoras se incluyen la disponibilidad Multi-AZ, el posicionamiento paralelo de copias de modelo y la introducción de EAGLE-3, que acelera la decodificación especulativa, aumentando así la tasa de procesamiento de solicitudes de inferencia.

Por otra parte, los componentes de inferencia de SageMaker AI permiten una gestión más modular y flexible de la inferencia dentro de un punto final, lo que facilita la implementación de múltiples modelos y la rápida adaptación a los cambios en la demanda. La nueva funcionalidad de alta disponibilidad Multi-AZ ayuda a minimizar los puntos únicos de falla al distribuir cargas de trabajo a través de múltiples zonas de disponibilidad, lo que mejora la resiliencia del sistema.

Una mejora notable es el escalado paralelo de los componentes de inferencia, que permite múltiples copias del modelo a desplegarse simultáneamente, reduciendo así la latencia durante los picos de tráfico. La introducción de EAGLE-3 permite optimizar el rendimiento mediante la predicción de tokens futuros directamente desde las capas ocultas del modelo, ofreciendo así una mayor precisión en las predicciones.

SageMaker también ha ampliado su capacidad de carga y descarga de adaptadores LoRA durante las invocaciones de inferencia, lo que optimiza el uso de recursos en escenarios de hospedaje de modelos a demanda. Esta gestión dinámica de los adaptadores permite registrar miles de modelos afinados sin comprometer la latencia en la inferencia.

Estas mejoras representan un avance significativo en la accesibilidad, confiabilidad y rentabilidad de la inferencia de inteligencia artificial en entornos de producción, al tiempo que abordan los desafíos más apremiantes que enfrentan los profesionales de la IA hoy en día. La integración fluida entre la personalización del modelo y su implementación permite a las organizaciones desplegar aplicaciones de IA generativa con confianza, centrándose en el valor que sus modelos pueden proporcionar, en lugar de las complejidades de la infraestructura subyacente.
vía: AWS machine learning blog