En la era de la inteligencia artificial, los modelos de lenguaje de gran escala (LLMs) han alcanzado un nivel de popularidad sin precedentes, convirtiéndose en parte integral de sectores clave como la salud, las finanzas y el marketing. Modelos como Llama, Stable Diffusion y Mistral son cada vez más utilizados por organizaciones que buscan entrenar y ajustar estos modelos masivos, que ahora cuentan con miles de millones de parámetros y secuencias de entrada más largas.
Sin embargo, estos avances también presentan desafíos considerables. Las largas secuencias de entrada y el número voluminoso de parámetros entrenables exigen enfoques innovadores para el desarrollo y la implementación de estos modelos. La capacidad de entrenar eficientemente estos modelos grandes requiere el uso de estrategias avanzadas de entrenamiento distribuido.
Amazon SageMaker ha introducido su biblioteca de modelo paralelo (SMP) como una solución para abordar estos retos, integrando nuevas características como el entrenamiento de precisión mixta con punto flotante de 8 bits (FP8) y paralelismo de contexto para el procesamiento de largas secuencias de entrada. Estas características prometen ventajas significativas para las organizaciones que trabajan con LLMs, como costos reducidos para la convergencia y un tiempo más rápido al mercado, permitiendo así una ventaja competitiva.
El desafío para las empresas consiste en entrenar estos modelos de manera eficaz y económica, especialmente cuando utilizan datos específicos del dominio con largas secuencias que pueden alcanzar hasta 128,000 tokens. Las técnicas existentes, como el paralelismo de datos completamente compartido (FSDP) y el paralelismo de tensor, distribuyen parámetros del modelo y estados de optimización en las GPU, pero no abordan efectivamente la partición a lo largo de la dimensión de la secuencia, lo que puede provocar errores de memoria insuficiente (OOM) aun utilizando FSDP.
La biblioteca SMP de Amazon SageMaker se enfrenta a estos desafíos mediante la implementación del paralelismo de contexto, una técnica que permite el entrenamiento con largas secuencias al particionar las activaciones a lo largo de la dimensión de la secuencia. También se adopta el formato FP8 para modelos soportados como Llama, lo que permite multiplicaciones de matrices más rápidas sin una pérdida significativa de precisión. Esta combinación de técnicas permite un entrenamiento más rápido y eficaz de modelos complejos.
El uso del entrenamiento en precisión mixta FP8, junto con el paralelismo de contexto, acelera significativamente el rendimiento de formación de los LLMs. Con el apoyo de GPUs NVIDIA H100 y H200, estas técnicas optimizan la utilización de recursos de computación, permitiendo a las empresas desplegar soluciones de IA innovadoras y obtener beneficios empresariales sustanciales en menos tiempo.
En conjunto, estos desarrollos reflejan la evolución continua en el campo del aprendizaje automático, donde las soluciones cada vez más sofisticadas y eficientes están al alcance de un número creciente de organizaciones.
vía: AWS machine learning blog