Mejores Prácticas para el Ajuste Fino Multimodal de Meta Llama 3.2 en Amazon Bedrock

0
19
Best practices for Meta Llama 3.2 multimodal fine-tuning on Amazon Bedrock

Multimodal fine-tuning está emergiendo como un enfoque poderoso para personalizar modelos fundamentales (FMs), especialmente en tareas que integran información visual y textual. Aunque los modelos multimodales base poseen capacidades generales impresionantes, suelen ser insuficientes en tareas visuales especializadas, contenidos específicos de dominio o requisitos de formato de salida particulares. El fine-tuning aborda estas limitaciones al adaptar los modelos a datos y casos de uso específicos, mejorando notablemente el rendimiento en tareas críticas para las empresas. Experimentos recientes han demostrado que los modelos ajustados de Meta Llama 3.2 pueden alcanzar mejoras de hasta un 74% en la precisión en tareas de comprensión visual especializada, comparados con sus versiones base tras la optimización de indicaciones.

Amazon Bedrock ha lanzado capacidades de fine-tuning para los modelos multimodales de Meta Llama 3.2, permitiendo a las organizaciones adaptar estos sofisticados modelos a sus necesidades únicas. Este proceso incluye la aplicación de mejores prácticas y conocimientos científicos que se fundamentan en experimentos exhaustivos utilizando conjuntos de datos de referencia públicos para diversas tareas de lenguaje-visual, como respuesta a preguntas visuales, generación de descripciones de imágenes e interpretación de gráficos. Siguiendo estas recomendaciones, es posible ajustar modelos más pequeños y rentables para lograr un rendimiento que compita e incluso supere a modelos mucho más grandes, reduciendo los costos de inferencia y la latencia sin sacrificar la precisión.

Entre los casos de uso recomendados para el fine-tuning de Meta Llama 3.2, destacan la respuesta a preguntas visuales (VQA), donde la personalización permite al modelo responder preguntas sobre imágenes de manera precisa; la interpretación de gráficos, que capacita a los modelos para analizar representaciones de datos complejas; y la generación de descripciones de imágenes, mejorando así la calidad y utilidad de los textos generados. Además, el fine-tuning es efectivo para extraer información estructurada de imágenes de documentos, lo que incluye tareas como la extracción de datos de formularios y la identificación de elementos clave en facturas o diagramas técnicos.

Para utilizar estas funciones, se deben cumplir ciertos requisitos como contar con una cuenta activa de AWS y asegurarse de que los modelos de Meta Llama 3.2 estén habilitados en Amazon Bedrock. Actualmente, la personalización de estos modelos está disponible en la región AWS US West (Oregón). Se recomienda preparar conjuntos de datos de entrenamiento en Amazon S3, asegurándose de que la calidad y la estructura del mismo sean adecuadas para obtener los mejores resultados posibles en el fine-tuning.

Los experimentos han utilizado conjuntos de datos multimodales representativos, incluidos LlaVA-Instruct-Mix-VSFT, que consiste en pares de preguntas y respuestas visuales; ChartQA, enfocado en preguntas sobre gráficos, y Cut-VQAv2, un subconjunto curado del conjunto de datos VQA. Las pruebas sistemáticas sobre diferentes tamaños de muestra han permitido comprender cómo se escala el rendimiento con la cantidad de datos.

La calidad y la estructura de los datos de entrenamiento son fundamentales para el éxito del fine-tuning, de modo que se aconseja utilizar un solo ejemplo de imagen por registro. Aunque se ha demostrado que los conjuntos de datos más grandes tienden a dar mejores resultados, se puede comenzar con muestras pequeñas de aproximadamente 100 ejemplos de alta calidad, antes de escalar a conjuntos más grandes. La consistencia en el formato de los datos también se ha identificado como un factor crítico para mejorar la eficiencia del aprendizaje.

Al configurar parámetros como el número de épocas y la tasa de aprendizaje, se puede optimizar aún más el rendimiento del modelo para casos de uso específicos. Los experimentos sugieren que para conjuntos de datos más pequeños, un mayor número de épocas permite un aprendizaje adecuado, mientras que conjuntos más grandes pueden beneficiarse de un número reducido de épocas debido a la suficiente cantidad de ejemplos.

La elección entre los modelos de 11B y 90B de Meta Llama 3.2 para el fine-tuning implica un balance entre rendimiento y costo. Las pruebas demuestran que el fine-tuning mejora significativamente el rendimiento sin importar el tamaño del modelo, y se recomienda el modelo de 90B para aplicaciones que requieren máxima precisión en tareas complejas de razonamiento visual.

El fine-tuning de los modelos multimodales de Meta Llama 3.2 en Amazon Bedrock ofrece a las organizaciones una oportunidad poderosa para crear soluciones de IA personalizadas, capaces de comprender información visual y textual. Con un enfoque en la calidad de los datos y la personalización adecuada, las empresas pueden alcanzar mejoras dramatizadas en rendimiento, incluso a partir de conjuntos de datos modestos, haciendo de esta tecnología una herramienta accesible para diversas organizaciones.
vía: AWS machine learning blog