Samsung Electronics ha dado a conocer TRUEBench, un nuevo estándar de evaluación diseñado para medir la productividad de la inteligencia artificial en aplicaciones del entorno laboral. Desarrollado por Samsung Research, este benchmark aborda las deficiencias de las evaluaciones actuales de modelos de lenguaje, que suelen ser limitadas y centradas en el inglés, y se enfocan en la interacción de preguntas y respuestas de un solo turno.
TRUEBench incluye un conjunto diverso de métricas que permite una evaluación realista del rendimiento de los modelos de lenguaje en tareas habituales de empresas, como la generación de contenido, el análisis de datos, la resumación y la traducción, repartidas en diez categorías y 46 subcategorías. Con esta nueva herramienta, Samsung busca establecer estándares de evaluación para la productividad y fortalecer su liderazgo tecnológico en el ámbito de la inteligencia artificial.
El benchmark se compone de 2,485 conjuntos de prueba en 12 idiomas, lo que permite la evaluación en diferentes contextos lingüísticos. Las tareas que se presentan varían desde solicitudes simples, de tan solo ocho caracteres, hasta la resumación de documentos extensos, con más de 20,000 caracteres.
Para asegurar una evaluación precisa, TRUEBench toma en cuenta no solo la exactitud de las respuestas, sino también las condiciones y necesidades implícitas de los usuarios. Este enfoque garantiza que todos los criterios de evaluación deban cumplirse para que un modelo sea considerado eficaz, lo que minimiza sesgos subjetivos y asegura consistencia en los resultados.
La plataforma Hugging Face alberga datos de muestras y listas de clasificación de TRUEBench, lo que permite a los usuarios comparar hasta cinco modelos de manera rápida y visual. También se publican estadísticas sobre la longitud media de las respuestas, lo que ofrece una perspectiva sobre el rendimiento y la eficiencia de los modelos evaluados. Con esta iniciativa, Samsung busca dar un paso adelante en la medición y mejora de la productividad en entornos de trabajo impulsados por inteligencia artificial.
vía: Sala de Prensa de Samsung.