Habla Con Tu Presentación Usando Modelos de Fundación Multimodal en Amazon Bedrock – Parte 3

0
116
Talk to your slide deck using multimodal foundation models on Amazon Bedrock – Part 3

Amazon Web Services (AWS) ha presentado recientemente dos enfoques innovadores para obtener información a partir de datos multimodales, tales como texto, imágenes y gráficos. En la primera parte de esta serie, se exploró la solución de «embed primero, inferir después», que utiliza el modelo de Amazon Titan Multimodal Embeddings para convertir diapositivas de una presentación en embeddings vectoriales. Estos son almacenados en una base de datos vectorial y, posteriormente, el modelo Large Language-and-Vision Assistant (LLaVA 1.5-7b) genera respuestas textuales a las preguntas de los usuarios basándose en las diapositivas más similares recuperadas de la base de datos.

La segunda parte de esta serie propone un enfoque alternativo denominado «inferir primero, embed después». Utilizando el modelo Claude 3 Sonnet de Anthropic en Amazon Bedrock, se generan descripciones textuales para cada diapositiva, las cuales son posteriormente convertidas en embeddings textuales y almacenadas en una base de datos vectorial. Nuevamente, el modelo Claude 3 Sonnet se encarga de generar respuestas a las preguntas de los usuarios, tomando como base las descripciones de texto más relevantes extraídas de la base de datos.

Ambos enfoques han sido evaluados utilizando SlideVQA, un dataset abierto de preguntas y respuestas visuales sobre documentos que proporciona una fuente verificada de comparación. Los resultados mostraron que los enfoques produjeron una precisión de respuesta del 50% o menor al ser confrontados con el conjunto de datos de muestra.

En términos de costos, el análisis de precios reveló que el enfoque de «embed primero, inferir después» tiene un costo por pregunta de $0.00224, mientras que el enfoque de «inferir primero, embed después» asciende a $0.02108. Estas cifras reflejan los cargos por procesamiento y generación de tokens en la nube de AWS.

La comparación entre las dos estrategias resalta la importancia de adaptar el enfoque según las necesidades específicas del dataset y las características del contenido. AWS sugiere la exploración de búsquedas híbridas y el uso de filtros de búsqueda para mejorar la precisión de recuperación de información.

Finalmente, AWS pone a disposición el código de los enfoques mencionados en un repo de GitHub, incentivando a los usuarios a realizar sus propias pruebas y decidir cuál se ajusta mejor a sus necesidades organizativas. Con la rápida evolución de la inteligencia artificial generativa, AWS busca seguir explorando formas de mejorar los resultados y las técnicas empleadas en la investigación y extracción de información de datos multimodales.
vía: AWS machine learning blog