Optimización del Modelo Mistral por Fastweb Usando Amazon SageMaker HyperPod para Desarrollar un Modelo de Lenguaje Italiano

0
146
How Fastweb fine-tuned the Mistral model using Amazon SageMaker HyperPod as a first step to build an Italian large language model

La transformación digital impulsada por la inteligencia artificial (IA) ha comenzado a marcar un nuevo rumbo en múltiples sectores, siendo las telecomunicaciones uno de los más beneficiados. Fastweb, un destacado operador de telecomunicaciones en Italia, ha comprendido el potencial de las tecnologías de IA desde 2019, año en que inició sus inversiones en este ámbito. La compañía se propuso desarrollar un modelo de lenguaje extenso (LLM) que fuera entrenado con datos en italiano, buscando así poner a disposición esta capacidad de IA a terceros.

El proceso de entrenamiento de un LLM es intensivo en recursos computacionales y complejo, lo que llevó a Fastweb a optar por los servicios de IA generativa y aprendizaje automático de AWS, como Amazon SageMaker HyperPod, para comenzar su viaje en IA. SageMaker HyperPod permite la provisión y mantenimiento de clusters de computación de gran escala, utilizando miles de aceleradores, incluyendo AWS Trainium y unidades de procesamiento gráfico (GPU) NVIDIA, todo mientras se mantenía la flexibilidad de implantar clusters pequeños y ágiles que optimizan la utilización de recursos y gestionan costos.

Un desafío clave que enfrentó Fastweb fue la escasez de conjuntos de datos de calidad en italiano. Para sortear este obstáculo, la compañía desarrolló un conjunto de datos extenso a partir de fuentes públicas y mediante la adquisición de datos licenciados de editoriales y medios de comunicación. En su primer experimento de entrenamiento con el LLM, Fastweb realizó un ajuste fino del modelo Mistral 7B, un modelo de referencia en el mercado, logrando adaptarlo para gestionar tareas como la resumición, la respuesta a preguntas y la escritura creativa en italiano, manteniendo un entendimiento matizado de la cultura italiana en sus respuestas.

La estrategia de ajuste fino se llevó a cabo en AWS por diversas razones, entre las que se destacan la eficiencia en la preparación de datos y la posibilidad de obtener resultados tempranos que proveen información valiosa para el desarrollo de modelos en italiano. El uso de una combinación de traducción de datasets de inglés a italiano y la generación de datos sintéticos mediante modelos de IA permitió a Fastweb enriquecer su conjunto de datos, asegurando calidad y diversidad mientras se enfrentaba a la limitación de recursos.

El costo computacional de entrenar estos modelos varía según el número de parámetros y la cantidad de datos utilizados. En el caso de Mistral 7B, se necesitaron más de 156 GB de memoria de hardware para su ajuste, sin incluir la memoria adicional para cargar los datos de entrenamiento. Para gestionar esta carga, Fastweb implementó técnicas de entrenamiento distribuido que optimizan el uso de múltiples GPUs, facilitando así un procesamiento paralelo que reduce el tiempo de entrenamiento.

Tras completar el proceso de ajuste, el modelo de lenguaje refinado de Fastweb mostró una mejora notable, con un aumento del 20% en precisión en tareas relacionadas con el italiano, a la vez que demostró un dominio significativo en áreas como la respuesta a preguntas y el razonamiento básico. Las expectativas para el futuro son altas: Fastweb planea desplegar sus próximos modelos en Amazon Bedrock, lo que les permitirá construir y escalar nuevas soluciones de IA generativa de manera ágil y efectiva.

Al aprovechar las capacidades de Amazon Bedrock, Fastweb busca no solo mejorar su oferta de servicios, sino también liderar la transformación digital en diversas industrias, impulsando así la adopción de soluciones innovadoras basadas en IA. Este enfoque refuerza su compromiso con la tecnología, la eficiencia de procesos y el impulso de oportunidades en un entorno cada vez más digitalizado.
vía: AWS machine learning blog