Amazon SageMaker AI Presenta Decodificación Especulativa Adaptativa EAGLE para Acelerar la Inferencia de IA Generativa

0
1
Amazon SageMaker AI introduces EAGLE based adaptive speculative decoding to accelerate generative AI inference

Los modelos de inteligencia artificial generativa están en constante expansión, aumentando la demanda de inferencias más rápidas y eficientes. En este contexto, Amazon SageMaker AI ha presentado mejoras en su kit de herramientas de optimización de inferencias, introduciendo la decodificación especulativa adaptativa basada en EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency) a más arquitecturas de modelos. Estas actualizaciones permiten acelerar la decodificación, optimizar el rendimiento utilizando datos del usuario y desplegar modelos de mayor rendimiento a través de un flujo de trabajo conocido en SageMaker AI.

EAGLE es una técnica que acelera la decodificación de grandes modelos de lenguaje al predecir tokens futuros directamente desde las capas ocultas del modelo. Al guiar la optimización utilizando datos específicos de la aplicación, las mejoras se alinean con los patrones y dominios reales, ofreciendo inferencias más rápidas que reflejan las cargas de trabajo del usuario en lugar de benchmarks genéricos. SageMaker AI entrena cabezales EAGLE 3 o EAGLE 2, dependiendo de la arquitectura del modelo.

Es importante mencionar que este proceso de entrenamiento y optimización no se limita a una operación única. Los usuarios pueden comenzar utilizando conjuntos de datos proporcionados por SageMaker para el entrenamiento inicial, pero también pueden ajustar el modelo finamente utilizando conjuntos de datos propios, lo que permite una performance altamente adaptativa y específica para cargas de trabajo. Por ejemplo, se puede utilizar una herramienta como Data Capture para compilar, con el tiempo, un conjunto de datos a partir de las solicitudes en tiempo real dirigidas al modelo.

SageMaker AI ahora ofrece soporte nativo para EAGLE 2 y EAGLE 3, permitiendo que cada arquitectura de modelo aplique la técnica que mejor corresponda a su diseño interno. Se pueden utilizar modelos JumpStart de SageMaker o importar modelos de otros repositorios, como HuggingFace, lo cual proporciona una gran flexibilidad.

La decodificación especulativa, una técnica común para acelerar inferencias sin comprometer la calidad, utiliza un modelo base más pequeño para generar tokens preliminares, que luego son verificados por el modelo de destino. Al emplear EAGLE, se optimizan resultados reutilizando características del modelo objetivo, pero la calidad de esta reutilización depende de la selección del modelo base.

EAGLE continúa este proceso al hacer que el modelo actúe como su propio socio experimental. En lugar de depender de un modelo externo, el modelo examina sus representaciones internas para anticipar varios tokens futuros en paralelo, lo que reduce los pasos lentos de inferencia y mejora la precisión de las predicciones iniciales. Este enfoque también alivia los cuellos de botella de memoria, proporcionando mejoras significativas en rendimiento.

SageMaker permite que los usuarios construyan o refinen modelos EAGLE de diferentes formas, ya sea entrenándolos desde cero con conjuntos de datos abiertos curados por SageMaker, utilizando datos propios o comenzando desde un modelo base ya existente. Además, SageMaker JumpStart ofrece modelos EAGLE preentrenados, permitiendo a los usuarios comenzar a optimizar modelos inmediatamente.

Las mejoras que derivan de la optimización utilizando sus propios conjuntos de datos reflejan las especificidades del comportamiento de cada aplicación, lo que resulta en un rendimiento de extremo a extremo mejorado. La herramienta de optimización de inferencias está diseñada para ayudar a los desarrolladores a ofrecer aplicaciones generativas con latencias más bajas y mayor escalabilidad, copando un ahorro de tiempo notable en el procesamiento y manejo de datos.
vía: AWS machine learning blog