Aceleración de la Inferencia de LLM con AWQ y GPTQ en Amazon SageMaker AI

0
1
Accelerating LLM inference with post-training weight and activation using AWQ and GPTQ on Amazon SageMaker AI

En los últimos años, los modelos de fundación (FMs) y los modelos de lenguaje de gran tamaño (LLMs) han experimentado un crecimiento acelerado, aumentando su número de parámetros con frecuencia. Este incremento ha conducido a notables avances tanto en la comprensión del lenguaje como en las capacidades generativas. Sin embargo, este avance trae consigo costos elevados: la inferencia ahora exige grandes capacidades de memoria, GPUs de alto rendimiento y un consumo energético considerable. Esta tendencia es particularmente visible en el ámbito del código abierto, donde se han lanzado modelos cada vez más grandes. En 2023, TII-UAE presentó Falcon 180B, el modelo de código abierto más grande de su tiempo. Meta superó ese hito en 2024 con Llama 3.1, un modelo denso de 405B parámetros. Para mediados de 2025, el modelo más grande disponible públicamente es DeepSeek (V3), con una arquitectura de mezcla de expertos que cuenta con 671 mil millones de parámetros.

Aunque estos modelos ofrecen un desempeño sobresaliente en tareas que abarcan desde búsqueda multimodal hasta generación de código, su implementación en aplicaciones del mundo real sigue siendo en gran medida impracticable debido a su tamaño y los requisitos de infraestructura. Por ejemplo, para utilizar DeepSeek-V3 en modo base, se requiere un instancia potente con 1128 GB de memoria GPU, mientras que su variante cuantificada puede ser ejecutada en instancias más pequeñas, lo que plantea importantes ventajas económicas y operativas.

La cuantización posterior al entrenamiento (PTQ) se presenta como una alternativa práctica. Esta técnica convierte los pesos y activaciones en enteros de menor precisión, lo cual puede reducir el tamaño del modelo entre 2 y 8 veces, minimizar la demanda de ancho de banda de memoria y acelerar las operaciones en matrices, todo sin necesidad de reentrenar el modelo. Esto resulta crucial para la implementación eficaz de LLMs, dado que operar a gran escala con modelos que superan los 100 mil millones de parámetros es un desafío técnico.

Los esfuerzos para hacer que los modelos cuantizados sean accesibles han sido favorecidos por la comunidad de desarrolladores, quienes han aportado recursos significativos en la optimización de LLMs para lograr una inferencia eficiente. Estos modelos se pueden implementar fácilmente en plataformas como Amazon SageMaker AI, que ofrece un servicio completamente gestionado que permite alojar modelos de machine learning y deep learning.

Las técnicas de cuantización post-entrenamiento, como la cuantización consciente de activaciones (AWQ) y la cuantización de transformadores generativos preentrenados (GPTQ), han demostrado ser eficaces para reducir los requisitos de recursos en la inferencia. Estas incluyen métodos que preservan la mayor parte del desempeño original del modelo mientras facilitan la utilización de grandes modelos en hardware con recursos limitados, disminuyendo tanto el impacto financiero como ambiental de los modelos modernos.

Con el crecimiento constante de los modelos de lenguaje y sus aplicaciones, las técnicas de cuantización se han establecido como un enfoque clave para equilibrar las necesidades de rendimiento con las limitaciones de infraestructura, proporcionando un camino claro hacia la implementación eficiente y rentable de la inteligencia artificial en diversas industrias. La posibilidad de implementar estos modelos en plataformas como Amazon SageMaker AI ofrece a las organizaciones una forma simplificada de avanzar desde el desarrollo hasta la producción en el dinámico campo de la inteligencia artificial.
vía: AWS machine learning blog