Las aplicaciones de inteligencia artificial generativa para responder preguntas están ampliando las fronteras de la productividad empresarial. Estos asistentes pueden ser impulsados por diversas arquitecturas backend, que incluyen Generación Aumentada por Recuperación (RAG), flujos de trabajo agentivos y modelos de lenguaje de gran escala (LLMs) ajustados, o una combinación de estas técnicas. No obstante, construir y desplegar asistentes de IA confiables requiere una base sólida de datos verídicos y un marco de evaluación.
Los datos de referencia en IA se refieren a aquellos que se conocen como fácticos, representando el resultado esperado del caso de uso para el sistema que se está modelando. Al proporcionar un resultado esperado contra el cual medir, los datos verídicos permiten evaluar de manera determinística la calidad del sistema. Realizar una evaluación determinística de los asistentes de IA generativa en comparación con los datos de referencia de casos de uso permite la creación de referencias personalizadas. Estas referencias son esenciales para rastrear el desplazamiento de rendimiento a lo largo del tiempo y para comparar estadísticamente múltiples asistentes en la realización de la misma tarea. Además, permiten cuantificar los cambios en el rendimiento como función de las mejoras al asistente subyacente, todo dentro de un entorno controlado.
Mediante procesos de evaluación determinística como las métricas de Conocimiento Factual y Precisión de QA de FMEval, la generación de datos verídicos y la implementación de métricas de evaluación están estrechamente interrelacionadas. Para garantizar la medición de la más alta calidad de su aplicación de respuesta a preguntas contra los datos verídicos, la implementación de la métrica de evaluación debe informar la elaboración de datos verídicos.
Este artículo discute las mejores prácticas para aplicar LLMs en la generación de datos verídicos para evaluar asistentes de respuesta a preguntas con FMEval a escala empresarial. FMEval es una suite de evaluación integral procedente de Amazon SageMaker Clarify, que proporciona implementaciones estandarizadas de métricas para evaluar la calidad y la responsabilidad. Para conocer más sobre FMEval, se puede consultar las publicaciones relacionadas en el blog de Amazon.
Siguiendo estas pautas, los equipos de datos pueden implementar una generación de datos verídicos de alta fidelidad para la evaluación de casos de uso de respuesta a preguntas con FMEval. Uno de los métodos para iniciar la generación de datos verídicos es la curación humana de un pequeño conjunto de datos de preguntas y respuestas. Este conjunto de datos debería ser pequeño, tener un alto contenido señalizador y, preferiblemente, ser preparado por expertos en la materia del caso de uso. Este ejercicio forcejea un alineamiento de datos temprano en el proceso de evaluación, levantando preguntas y conversaciones importantes entre las partes interesadas sobre qué preguntas son importantes medir a lo largo del tiempo para el negocio.
Para escalar la generación y curación de datos verídicos, se puede aplicar un enfoque basado en riesgos junto con una estrategia basada en prompts utilizando LLMs. Es importante notar que los datos de referencia generados por LLMs no son un sustituto de la participación de expertos en la materia. Las partes interesadas del caso de uso aun deberán identificar qué preguntas son fundamentales para el negocio y luego alinear los datos verídicos con el valor empresarial como parte de un proceso humano en el bucle.
La generación de datos verídicos debe hacerse con una representación mínima de la respuesta verídica, comprendiendo uno o más entidades del sujeto. Este enfoque es esencial para asegurar que las métricas de evaluación se alineen con las expectativas y los estándares del negocio, lo que habilita una evaluación de la calidad y responsabilidad de los asistentes a través de FMEval.
Esta metodología ofrece un camino claro para las organizaciones que buscan construir y evaluar asistentes de inteligencia artificial generativa, asegurando que están equipados con la información y los estándares requeridos para mantenerse competitivos en un mercado en constante evolución.
vía: AWS machine learning blog