Detección de Alucinaciones en Sistemas Basados en RAG

0
13
Detect hallucinations for RAG-based systems

La inteligencia artificial generativa ha crecido en popularidad, y herramientas como la Generación Aumentada por Recuperación (RAG) se han vuelto esenciales para aumentar la precisión y fiabilidad de las respuestas generadas por estas tecnologías. RAG permite integrar datos adicionales que no fueron considerados en el entrenamiento de los modelos de lenguaje, contribuyendo así a la reducción de información falsa o engañosa, un problema conocido como «hallucinations» en el ámbito de la IA.

A medida que estos sistemas de IA se integran más en la vida cotidiana y en procesos críticos de toma de decisiones, la capacidad de detectar y mitigar estas alucinaciones se vuelve vital. La mayoría de las técnicas actuales de detección de alucinaciones se centran únicamente en la pregunta y la respuesta, por lo que la disponibilidad de contexto adicional, como el que ofrece RAG, permite la introducción de nuevas técnicas que pueden abordar mejor este problema.

Existen diversos métodos para crear un sistema básico de detección de alucinaciones en aplicaciones basadas en RAG. Este análisis evalúa los pros y contras de diferentes métodos en función de su precisión, recuperación, y coste. Las técnicas contemporáneas que se están desarrollando apuntan a proporcionar métodos accesibles que se puedan incorporar rápidamente en las canalizaciones de RAG, elevando así la calidad de las respuestas generadas.

Se distinguen tres tipos de alucinaciones y se han propuesto múltiples técnicas para su detección, entre las que destacan el detector basado en LLM, el detector de similitud semántica, y el verificador estocástico BERT. Cada método ha demostrado ser más o menos eficaz en cuanto a rapidez y rendimiento al ser evaluados en diferentes conjuntos de datos, incluyendo artículos de Wikipedia y conjuntos de datos generados sintéticamente.

En términos de requisitos, se destaca la necesidad de una cuenta en AWS que tenga acceso a herramientas como Amazon SageMaker y Amazon S3. Para que el sistema RAG funcione correctamente, se deben almacenar tres elementos: el contexto relevante a la consulta del usuario, la pregunta hecha, y la respuesta proporcionada por el modelo de lenguaje.

Al aplicar la detección basada en LLM, se clasifica la respuesta del sistema RAG teniendo en cuenta si está en conflicto con el contexto, mientras que los métodos de similitud semántica y de comparación de tokens ofrecen diferentes enfoques para identificar inconsistencias. Se ha demostrado que el verificador estocástico BERT tiene un rendimiento alto en cuanto a la recuperación de información, aunque a un coste que puede ser elevado.

Las comparaciones entre las diferentes técnicas sugieren que el método basado en LLM presenta un buen equilibrio entre precisión y coste. Por lo tanto, se recomienda emplear un enfoque híbrido que combine un detector de similitud de tokens con uno basado en LLM para abordar eficazmente las alucinaciones, destacando la necesidad de adaptabilidad y análisis en las aplicaciones de inteligencia artificial generativa. En conclusión, a medida que las aplicaciones de RAG evolucionen, los métodos de detección de alucinaciones servirán como herramientas fundamentales para mejorar la fiabilidad y la confianza en estos sistemas.
vía: AWS machine learning blog