Mejorando Modelos Multimodales en Amazon SageMaker JumpStart para Usos de Visión y Texto

0
8
Fine-tune multimodal models for vision and text use cases on Amazon SageMaker JumpStart

En el dinámico panorama de la inteligencia artificial (IA), los modelos generativos están emergiendo como una tecnología transformadora que permite a los usuarios explorar nuevas fronteras de creatividad y resolución de problemas. Estos avanzados sistemas de IA han trascendido sus capacidades tradicionales basadas en texto, integrando funciones multimodales que amplían su alcance a diversas aplicaciones. Estos modelos han ganado en potencia, permitiendo una amplia gama de aplicaciones más allá de la generación de texto. Ahora, son capaces de crear imágenes sorprendentes, generar resúmenes atractivos, responder a preguntas complejas e incluso producir código, todo mientras mantienen un alto nivel de precisión y coherencia. La integración de estas capacidades multimodales ha desbloqueado nuevas posibilidades tanto para empresas como para individuos, revolucionando campos como la creación de contenido, el análisis visual y el desarrollo de software.

Un ejemplo de esta evolución es la reciente implementación de los modelos de instrucción visual Meta Llama 3.2. Diseñados para enfrentar tareas de respuesta a preguntas visuales, estos modelos han demostrado un rendimiento impresionante en el exigente punto de referencia DocVQA, que incluye un conjunto de imágenes de documentos acompañadas de preguntas en lenguaje natural. Los modelos Meta Llama 3.2, sin ajuste fino previo, alcanzaron puntuaciones ANLS (similitud normalizada de Levenshtein agregada) de 88.4 y 90.1, respectivamente, las cuales fueron significativamente mejoradas mediante el ajuste fino con Amazon SageMaker JumpStart, logrando puntuaciones de 91 y 92.4. Este proceso de ajuste fino ha demostrado cómo se pueden equipar estos poderosos sistemas de IA multimodal con habilidades especializadas para comprender y responder preguntas en lenguaje natural sobre información visual compleja basada en documentos.

Meta Llama 3.2, con sus modelos de 11B y 90B, es la primera colección de modelos Llama que incluye soporte para tareas de visión, con una nueva arquitectura que integra representaciones del codificador de imágenes en el modelo de lenguaje. Estos modelos están diseñados para ser más eficientes, reduciendo la latencia y mejorando el rendimiento, haciéndolos adecuados para una amplia gama de aplicaciones. Además, ofrecen soporte multilingüe mejorado para ocho idiomas, incluyendo inglés, alemán, francés, italiano, portugués, hindi, español y tailandés, aumentando así su aplicabilidad global en el análisis de documentos e información visual.

El conjunto de datos DocVQA se ha convertido en un punto de referencia indispensable para evaluar el rendimiento de los modelos de IA multimodal en tareas de respuesta a preguntas visuales que involucran imágenes de estilo documento. Este recurso incluye una colección diversa de imágenes de documentos emparejadas con preguntas que requieren tanto comprensión visual como textual. Al ajustar finamente un modelo de IA generativa como Meta Llama 3.2 en este conjunto de datos, utilizando herramientas como Amazon SageMaker, se puede dotar al modelo con las habilidades necesarias para sobresalir en estas complejas tareas, armonizando la capacidad de la inteligencia artificial para integrar y procesar diferentes tipos de datos de manera coherente y eficaz.

Este avance marca un significativo paso hacia la entrega de modelos de IA que no solo son más eficientes, sino que también son capaces de manejar mayores volúmenes de contexto, procesando hasta 128,000 tokens, lo cual, junto con otras mejoras, impulsa aún más el rendimiento general de estos modelos en aplicaciones prácticas de la vida real.
vía: AWS machine learning blog