Acelerando El Ajuste Fino De Mixtral MoE En Amazon SageMaker Con QLoRA

0
105
Accelerating Mixtral MoE fine-tuning on Amazon SageMaker with QLoRA

Las empresas de distintos sectores y tamaños están adoptando modelos de lenguaje grande (LLMs) para desarrollar aplicaciones de inteligencia artificial generativa que proporcionan experiencias innovadoras a sus clientes y empleados. Sin embargo, el desarrollo o ajuste de estos modelos LLM preentrenados requiere recursos computacionales significativos y un esfuerzo considerable en ingeniería. A medida que los tamaños de estos modelos preentrenados aumentan, el proceso de personalización se torna más complejo, prolongado y económicamente inaccesible para muchas organizaciones que no cuentan con la infraestructura necesaria ni con el talento especializado.

Con el objetivo de abordar estos desafíos, Amazon ha introducido una solución que emplea el entorno gestionado de Amazon SageMaker para ejecutar trabajos de entrenamiento que permiten ajustar finamente el modelo Mixtral 8x7B. Este proceso se realiza utilizando PyTorch Fully Sharded Data Parallel (FSDP) y Quantized Low Rank Adaptation (QLoRA), lo que optimiza el uso de memoria y reduce la huella de memoria del modelo.

El modelo Mixtral 8x7B, conocido por su arquitectura de «mezcla escasa de expertos» (SMoE), ha ganado popularidad entre grandes empresas debido a su alto rendimiento en diversas tareas. Esta arquitectura activa selectivamente solo un subconjunto de sus parámetros durante el entrenamiento, utilizando alrededor del 18.5% de sus parámetros totales durante la inferencia, lo cual optimiza su eficiencia.

Además, las empresas enfrentan el reto de adaptar estos modelos para tareas específicas, debido a que los modelos generales carecen de información específica del dominio, lo que limita su desempeño. Implementar estrategias de ajuste fino es crucial para optimizar el rendimiento en aplicaciones concretas. Sin embargo, este proceso es intensivo en memoria y requiere una experiencia avanzada en IA.

La solución presentada por Amazon SageMaker utiliza técnicas avanzadas de optimización de memoria para enfrentar estos retos. QLoRA, un método que congela los pesos originales del modelo y añade parámetros entrenables de baja jerarquía a las capas de transformadores, permite comprimir el modelo y reducir la huella de memoria. Esto facilita el entrenamiento y ajuste fino de los LLMs incluso en sistemas con recursos de memoria limitados, manteniendo un rendimiento comparable al ajuste fino de media precisión.

El uso de QLoRA, junto con SageMaker, ofrece una solución eficaz y rentable para las empresas que buscan implementar modelos LLM personalizados. Esta implementación permite a las organizaciones centrarse en el desarrollo y perfeccionamiento del modelo utilizando la infraestructura de entrenamiento completamente gestionada proporcionada por SageMaker.
vía: AWS machine learning blog