Las organizaciones que implementan aplicaciones de inteligencia artificial generativa necesitan formas sólidas de evaluar su rendimiento y fiabilidad. En la reciente conferencia AWS re:Invent 2024, se anunciaron las capacidades de evaluación de modelos de lenguaje (LLM-as-a-judge, LLMaJ) y generación aumentada por recuperación (RAG) en versión previa pública, las cuales fueron utilizadas por los clientes para evaluar sus modelos base y aplicaciones de IA generativa. Sin embargo, se solicitó más flexibilidad más allá de los modelos de Amazon Bedrock y sus bases de conocimiento. En respuesta a esta demanda, se ha hecho disponible hoy la evaluación general de estas funciones en Amazon Bedrock Evaluations, junto con mejoras significativas que las hacen completamente ágiles para cualquier entorno.
Esta nueva disponibilidad introduce la funcionalidad «bring your own inference responses» (BYOI) para las evaluaciones de RAG y modelo. Esto significa que ahora es posible evaluar un sistema RAG o un modelo, ya sea que se ejecute en Amazon Bedrock, otros proveedores de nube o en local, siempre y cuando se proporcione los datos de evaluación en el formato requerido. Además, se han incorporado nuevas métricas de citación para el robusto conjunto de evaluaciones de RAG, incluyendo precisión y cobertura de citación, para ayudar a evaluar con mayor precisión cómo utiliza un sistema RAG la información recuperada.
Las nuevas características permiten que los equipos optimicen el rendimiento y promuevan la calidad en sus portafolios de IA generativa, ya sea utilizando Amazon Bedrock o diferentes entornos. Las capacidades de evaluación han sido ampliadas para permitir la evaluación de salidas de sistemas RAG alojados en cualquier lugar mediante el entorno de evaluación de Amazon Bedrock. Con la funcionalidad de BYOI, es posible evaluar resultados de recuperación y generación de una variedad de fuentes, incluidos otros proveedores de modelos base y sistemas RAG personalizados.
También se ha actualizado el formato de entrada necesario para la evaluación, que ahora incluye identificadores de base de conocimiento y campos de metadatos adicionales. Una de las novedades más esperadas es la introducción de métricas de citación, que proporcionan un análisis crítico sobre la precisión de las citaciones que efectúa un sistema RAG, ayudando a identificar casos en los que se incluyen citaciones innecesarias o irrelevantes.
Con la evaluación mejorada, se facilita la comparación entre diferentes implementaciones y se fomenta la toma de decisiones basadas en datos sobre los despliegues de IA. Las empresas pueden ahora implementar flujos de trabajo de evaluación regulares para mejorar continuamente sus modelos y sistemas RAG con el objetivo de ofrecer salidas de la más alta calidad en casos de uso específicos.
vía: AWS machine learning blog