El entrenamiento de grandes modelos de lenguaje (LLMs) se ha convertido en un gasto significativo para las empresas. Cada vez más, las organizaciones buscan utilizar modelos fundacionales (FMs) de LLM adaptados a sus datos específicos del dominio. Sin embargo, muchas empresas están descubriendo que realizar un ajuste fino completo de estos modelos con sus propios datos no resulta rentable. Para reducir costos mientras continúan aprovechando el poder de la inteligencia artificial, han comenzado a adoptar un enfoque más eficiente mediante técnicas de Ajuste Fino Eficiente en Parámetros (PEFT). Estas técnicas están diseñadas para adaptar modelos LLM preentrenados a tareas específicas, minimizando el número de parámetros que necesitan ser actualizados. Estrategias como la Adaptación de Bajo Rango (LoRA) y la Adaptación de Bajo Rango Descompuesta Ponderada (DoRA) permiten una reducción significativa en el número de parámetros entrenables, lo que se traduce en costos más bajos para el ajuste fino.
Además del costo, llevar a cabo un ajuste fino de LLM a gran escala presenta importantes desafíos técnicos. El proceso de establecer y configurar un entorno de entrenamiento distribuido puede ser complejo e implica experiencia en gestión de servidores, configuración de clústeres, redes y computación distribuida. La gestión manual de esta complejidad a menudo resulta contraproducente y puede desviar recursos valiosos del desarrollo de inteligencia artificial en los negocios. Para simplificar la configuración de la infraestructura y acelerar el entrenamiento distribuido, Amazon Web Services (AWS) presentó Amazon SageMaker HyperPod a finales de 2023.
SageMaker HyperPod está diseñado para ayudar a reducir el tiempo requerido para entrenar modelos generativos a gran escala, ofreciendo una infraestructura específica para el entrenamiento distribuido. Al utilizar SageMaker HyperPod, el servicio supervisa activamente la salud del clúster, reemplazando automáticamente nodos defectuosos y reanudando el entrenamiento del modelo desde puntos de control. Los clústeres vienen preconfigurados con bibliotecas de entrenamiento distribuido que permiten dividir los datos de entrenamiento y el modelo entre miles de nodos de computación, posibilitando el procesamiento de datos en paralelo y utilizando completamente la infraestructura de computación y red del clúster.
Los chips Trainium, desarrollados específicamente para el entrenamiento de modelos con más de 100 mil millones de parámetros, junto con el kit de herramientas Neuron SDK de AWS, proporcionan herramientas de compilación y evaluación que permiten una aceleración de aprendizaje profundo de alto rendimiento y rentable. Para integrar los chips Trainium con modelos existentes, el paquete Optimum-Neuron de Hugging Face actúa como interfaz con Neuron, facilitando la aplicación de técnicas como LoRA para el ajuste fino de modelos.
El ajuste fino tradicional implica modificar todos los parámetros de un modelo, lo que puede ser costoso desde el punto de vista computacional y requerir mucha memoria. Los enfoques PEFT, como LoRA, se centran en introducir un conjunto más pequeño de parámetros entrenables, a menudo en forma de matrices de bajo rango que ajustan el comportamiento del modelo mientras mantienen la mayoría de sus parámetros congelados. Esto permite mantener el rendimiento del modelo base mientras se reduce significativamente la carga computacional y los requisitos de recursos.
Para llevar a cabo un ajuste fino eficiente de un modelo Meta Llama 3 utilizando PEFT en Trainium con SageMaker HyperPod, se deben seguir varios pasos. Estos incluyen la configuración y despliegue de un clúster HyperPod para entrenamiento distribuido, el ajuste fino de un modelo específico sobre un conjunto de datos y la consolidación y la inferencia de los pesos del modelo tras el ajuste.
Se ha mostrado que usando LoRA para el ajuste fino de modelos Meta Llama 3, las empresas pueden lograr una reducción de hasta el 50% en los costos y una disminución del 70% en el tiempo de entrenamiento, lo que plantea un enfoque atractivo para la contención de gastos mientras se aprovechan las tecnologías de aprendizaje profundo más avanzadas disponibles en el mercado actual.
vía: AWS machine learning blog