Evaluación de Modelos de IA Generativa con Amazon Nova LLM como Juez en Amazon SageMaker AI

0
10
Evaluating generative AI models with Amazon Nova LLM-as-a-Judge on Amazon SageMaker AI

La evaluación del rendimiento de los modelos de lenguaje de gran tamaño (LLMs, por su sigla en inglés) ha evolucionado más allá de las métricas estadísticas tradicionales como la perplexidad o los puntajes BLEU. En escenarios del mundo real, especialmente en aplicaciones como la generación de contenido y la creación de agentes inteligentes, es fundamental determinar si un modelo produce resultados mejores que una referencia o una iteración anterior. Este hecho subraya la importancia de juicios subjetivos y la corrección matizada en los resultados.

Con el creciente uso de estos modelos en producción, se ha evidenciado una demanda creciente de métodos sistemáticos para evaluar la calidad de los modelos, más allá de los métodos tradicionales. Las mediciones de precisión y las evaluaciones basadas en reglas, aunque útiles, no abordan completamente la necesidad de evaluaciones más complejas, especialmente cuando las tareas requieren juicios subjetivos o una comprensión contextual específica. Para cubrir esta brecha, ha surgido el enfoque LLM-as-a-judge, que utiliza las capacidades de razonamiento de los LLMs para evaluar otros modelos de manera más flexible y a gran escala.

Recientemente, se presentó la nueva capacidad Amazon Nova LLM-as-a-Judge en Amazon SageMaker AI, un servicio completamente administrado que permite construir, entrenar y desplegar modelos de aprendizaje automático a gran escala. Este desarrollo está diseñado para proporcionar evaluaciones robustas y no sesgadas de los resultados de la inteligencia artificial generativa a través de diversas familias de modelos. Con Amazon Nova, los usuarios pueden comenzar a evaluar el rendimiento del modelo en minutos, con flujos de trabajo optimizados que permiten comparaciones detalladas entre diferentes iteraciones del modelo.

La capacidad Nova LLM-as-a-Judge se construyó a través de un proceso de entrenamiento de múltiples etapas, que incluye entrenamiento supervisado y aprendizaje por refuerzo utilizando conjuntos de datos públicos vistos por anotadores humanos. De esta manera, varios evaluadores compararon miles de ejemplos para asegurar la consistencia y la equidad en las evaluaciones, que reflejan un consenso humano más amplio. Los datos de entrenamiento son diversos y representativos, abarcando una amplia gama de categorías y en más de 90 idiomas.

Un estudio exhaustivo de sesgo interno, que evaluó más de 10,000 juicios de preferencias humanas, confirmó que Nova presenta un sesgo agregado de solo un 3% en comparación con las anotaciones humanas, lo que representa un logro significativo en la reducción del sesgo sistemático. Aunque se recomienda realizar controles ocasionales para validar comparaciones críticas, los resultados muestran una fuerte alineación con los juicios humanos a través de diversas tareas, destacando su efectividad especialmente en evaluaciones relacionadas con chatbots.

El marco de evaluación de Amazon Nova produce métricas cuantitativas que permiten a los usuarios decidir cuál modelo se desempeña mejor y cuán confiable es la evaluación. Estas métricas están organizadas en categorías como métricas de preferencia básicas, métricas de confianza estadística y métricas de error estándar. Este método de evaluación proporciona una base estadística rigurosa para comparar modelos y tomar decisiones informadas sobre cuál modelo implementar.

La capacidad de Amazon Nova para ofrecer evaluaciones precisas y automáticas representa un avance significativo en cómo se mide la efectividad de los modelos de inteligencia artificial generativa, permitiendo el desarrollo de aplicaciones más sofisticadas y alineadas con las necesidades comerciales específicas. La solución es escalable y produce informes visuales claros que facilitan la interpretación de los resultados, ayudando así a los equipos a identificar mejoras y realizar ajustes necesarios en sus sistemas.
vía: AWS machine learning blog