El avance en la generación aumentada por recuperación (RAG, por sus siglas en inglés) ha alcanzado un nuevo hito al integrar datos heterogéneos en sus procesos. Este desarrollo permite ahora no sólo trabajar con bases de datos textuales, sino también manejar formatos variados como tablas y contenido multimodal, incluyendo imágenes. La adopción de estas capacidades responde a la creciente demanda de las empresas por utilizar diferentes tipos de datos para mejores sistemas de pregunta y respuesta.
Un ejemplo destacado se encuentra en la asistencia técnica para ingenieros de campo. Se implementó un sistema que centraliza la información de productos específicos y experiencia de campo de una empresa, integrando datos estructurados y no estructurados, lo que permite a los ingenieros acceder rápidamente a información relevante, resolver problemas de manera más eficiente y compartir conocimiento internamente. En la industria del petróleo y gas, otra aplicación involucra un chatbot diseñado para responder preguntas complejas y ayudar a las empresas a tomar decisiones más informadas y rápidas al analizar datos de diferentes fuentes, como registros sísmicos y muestras de núcleo.
En el sector financiero, se combina información estructurada, como precios de acciones, con datos no estructurados para dar un análisis matizado que ayude a identificar oportunidades y prever movimientos de mercado. En el ámbito del mantenimiento industrial, la integración de registros de mantenimiento, manuales de equipo e inspecciones visuales optimiza los calendarios de mantenimiento, mejorando las capacidades de diagnóstico de los técnicos.
El uso de router en RAG es esencial para gestionar estas fuentes de datos diversas. Los routers dirigen las consultas de los usuarios a las canalizaciones de procesamiento adecuadas según el tipo de datos requerido, asegurándose de que cada tipo de datos sea procesado adecuadamente. Esto se logra mediante la detección de intenciones del usuario, permitiendo manejar adecuadamente datos no estructurados, tablas estructuradas y contenido multimodal.
Además, los modelos avanzados ahora aprovechan la generación de código para mejorar el análisis de datos estructurados, como las grandes tablas, que a menudo requieren un tratamiento más complejo. En aplicaciones como la producción de petróleo, se pide al modelo de lenguaje que genere código Python o SQL para realizar el análisis necesario. Esta habilidad no solo optimiza el tiempo de respuesta, sino que también mitiga las alucinaciones potenciales en los modelos de lenguaje de gran tamaño.
Por último, la incorporación de capacidades multimodales en RAG representa un avance significativo. Este enfoque permite la mezcla de datos textuales e imágenes, potenciando sectores como el comercio electrónico, donde los usuarios pueden buscar productos con texto e imágenes para encontrar coincidencias precisas. Las estrategias para lograr esto incluyen el uso de modelos de embebido multimodal o la generación de descripciones detalladas de imágenes mediante modelos de lenguaje avanzado, cada una con sus ventajas dependiendo del caso de uso.
Esta evolución continúa desafiando los límites de la tecnología RAG, ofreciendo a las organizaciones las herramientas necesarias para integrarse y sacar provecho de datos complejos y variados. La implementación efectiva de estas soluciones requiere desglosar problemas en componentes modulares, maximizando la utilidad de los modelos fundacionales (FM) para cada componente, desde la detección de intenciones hasta las capacidades multimodales que unen el texto y los datos visuales de manera fluida.
vía: AWS machine learning blog