Evaluación de Agentes de Amazon Bedrock con Ragas y LLM como Jueces

0
26
Evaluation Workflow

Los agentes de inteligencia artificial (IA) están ganando rápidamente protagonismo en los flujos de trabajo de atención al cliente en diversas industrias, facilitando la automatización de tareas complejas, mejorando la toma de decisiones y optimizando operaciones. Sin embargo, su integración en sistemas de producción requiere de pipelines de evaluación escalables. Una evaluación robusta de los agentes permite medir su desempeño en acciones específicas, proporcionando información crucial que mejora la seguridad, el control, la confianza, la transparencia y la optimización del rendimiento de estos sistemas.

Amazon Bedrock Agents aprovecha la lógica de modelos de base (FMs) disponibles en Amazon Bedrock, junto con APIs y datos, para desglosar solicitudes de los usuarios, recopilar información relevante y ejecutar tareas de manera eficiente. Esto permite que los equipos puedan concentrarse en trabajos de alto valor al permitir la automatización de procesos que requieren múltiples pasos.

Por otro lado, Ragas es una librería de código abierto diseñada para probar y evaluar aplicaciones de modelos de lenguaje grande (LLM) en varios casos de uso, incluyendo la generación aumentada por recuperación (RAG). Este marco habilita la medición cuantitativa de la efectividad de la implementación de RAG y, en los estudios recientes, se utilizó para evaluar la capacidad RAG de Amazon Bedrock Agents.

La metodología LLM-as-a-judge consiste en emplear LLMs para evaluar la calidad de las salidas generadas por la IA, actuando como un evaluador imparcial. Este enfoque se utilizó para analizar y puntuar las capacidades de conversión de texto a SQL y de razonamiento en cadena de los agentes de Amazon Bedrock.

Además, Langfuse, otra plataforma de ingeniería LLM de código abierto, ofrece características como trazas, evaluaciones, gestión de solicitudes y métricas que ayudan a depurar y mejorar aplicaciones basadas en LLM.

Recientemente, se presentó un marco de evaluación de agentes Bedrock de código abierto, que tiene la capacidad de evaluar agentes en cuanto a su rendimiento en tareas de RAG, conversión de texto a SQL y uso de herramientas personalizadas. Un aspecto significativo de este avance es la posibilidad de visualizar resultados y datos de trazas a través de paneles integrados en Langfuse.

En la evaluación de agentes, los desarrolladores enfrentan varios desafíos técnicos. Entre ellos se encuentran la dificultad de realizar una evaluación end-to-end que contemple métricas específicas para agentes de Amazon Bedrock y la complicada gestión de experimentos debido a las múltiples configuraciones posibles de los agentes.

Para simplificar el proceso de evaluación, el marco de Open Source Bedrock Agent Evaluation permite que los usuarios especifiquen un ID de agente y ejecuten trabajos de evaluación que invocan agentes en Amazon Bedrock. Este proceso genera trazas de las invocaciones que se analizan y evalúan, enviando los resultados a Langfuse para obtener información y métricas agregadas.

La evaluación de estas tecnologías es especialmente relevante en el ámbito de la investigación farmacéutica, donde se han diseñado agentes que colaboran y analizan datos relacionados con biomarcadores. Estos agentes utilizan un enfoque de colaboración para facilitar el descubrimiento de información clave en la investigación médica, haciendo que la integración y evaluación de sus capacidades sea crucial para su rendimiento. Esto resalta la importancia de contar con herramientas efectivas para la evaluación de agentes de IA, que no solo mejoren su eficacia, sino que también aseguren su confianza y seguridad en entornos críticos.
vía: AWS machine learning blog