Los modelos de lenguaje de gran tamaño (LLMs) han experimentado un rápido desarrollo, convirtiéndose en componentes esenciales de aplicaciones que abarcan desde la inteligencia conversacional hasta tareas de razonamiento complejas. Sin embargo, a medida que estos modelos aumentan en tamaño y capacidad, la evaluación efectiva de su rendimiento se vuelve cada vez más difícil. Las métricas tradicionales de evaluación, como la perplejidad y los puntajes BLEU, a menudo no logran captar las sutilezas de las interacciones en el mundo real, lo que hace que los marcos de evaluación alineados con humanos sean cruciales. Comprender cómo se evalúan los LLMs puede llevar a despliegues más fiables y comparaciones justas entre diferentes modelos.
En este contexto, se han explorado métodos de evaluación automatizados y alineados con humanos que utilizan LLMs como jueces. Este enfoque implica emplear un LLM más potente para evaluar y clasificar las respuestas generadas por otros modelos basándose en criterios predefinidos como corrección, coherencia, utilidad o profundidad del razonamiento. Tal estrategia ha ganado popularidad debido a su escalabilidad, consistencia, velocidad en la iteración y eficiencia de costos, en comparación con la evaluación exclusiva por jueces humanos. En este análisis se discuten diferentes escenarios de evaluación usando LLMs como jueces, incluida la comparación en pares y la puntuación de respuestas individuales.
Para proporcionar información concreta, se utilizan MT-Bench y Arena-Hard, dos marcos de evaluación ampliamente utilizados. MT-Bench ofrece un enfoque estructurado multivuelta adaptado a interacciones tipo chatbot, mientras que Arena-Hard se centra en clasificar los LLMs a través de batallas directas de respuestas en tareas desafiantes. Ambos marcos buscan acercar la evaluación automatizada y la evaluación humana, garantizando que los LLMs no se evalúen solamente mediante puntos de referencia sintéticos, sino también en casos de uso prácticos.
El estudio evaluó todos los modelos de la familia Amazon Nova, incluyendo Amazon Nova Premier, que es la adición más reciente a esta serie introducida en AWS re:Invent de diciembre de 2024. Los modelos Nova están diseñados para proporcionar una inteligencia de vanguardia con patrones de costo-efectividad liderando en sus respectivas categorías. Esta familia de modelos comprende diferentes niveles, desde Amazon Nova Micro, optimizado para despliegues en borde, hasta Amazon Nova Premier, que se centra en tareas complejas.
Además, a través de la destilación de modelos en Amazon Bedrock, los clientes pueden transferir capacidades de inteligencia del modelo Nova Premier a modelos más rápidos y rentables como Nova Pro o Nova Lite, adaptados a dominios específicos. Este proceso se puede acceder mediante la consola de Amazon Bedrock y APIs como Converse e Invoke.
La evaluación realizada con MT-Bench y Arena-Hard revela una clara jerarquía de rendimiento entre los modelos Amazon Nova. En particular, Amazon Nova Premier logró el puntaje mediano más alto, seguido de Nova Pro, mientras que Nova Lite y Nova Micro también mostraron resultados respetables. Un análisis de la eficacia de respuesta destacó que, a pesar de ser el modelo más grande, Nova Premier demostró una eficiencia de token superior al generar respuestas más concisas que consumen menos recursos.
Por otro lado, Arena-Hard-Auto utiliza un conjunto de 500 indicaciones desafiantes para evaluar distintos LLM mediante comparaciones en pares, aplicando un modelo robusto para calcular el rendimiento en función de múltiples categorías de preferencias, lo que ayuda a obtener un análisis más profundo de las capacidades del modelo.
El estudio concluye que los modelos Amazon Nova ofrecen un rendimiento sólido en diversas tareas mientras mantienen costos operativos más bajos, lo que los convierte en una opción competitiva para empresas que optimizan la eficiencia sin comprometer la calidad. Esta investigación subraya la importancia de las metodologías de evaluación en la selección y despliegue de modelos en aplicaciones del mundo real.
vía: AWS machine learning blog