Samsung Electronics ha presentado TRUEBench, un nuevo estándar de evaluación desarrollado por Samsung Research para medir la productividad de la inteligencia artificial (IA) en entornos laborales. Esta herramienta proporciona un conjunto completo de métricas que permiten evaluar el rendimiento de los modelos de lenguaje de gran tamaño (LLMs) en aplicaciones reales de productividad, integrando diversos escenarios de diálogo y condiciones multilingües.
TRUEBench surge como respuesta a la creciente demanda de medir la efectividad de los LLMs en tareas comunes de empresa, tales como la generación de contenido, análisis de datos, resumido y traducción. Con 10 categorías y 46 subcategorías, este benchmark incluye un total de 2,485 conjuntos de pruebas en 12 idiomas, y permite escenarios interlingüísticos, lo que lo diferencia de otros estándares que a menudo son anglófonos y limitados a estructuras de pregunta-respuesta simples.
Paul (Kyungwhoon) Cheun, CTO de la División DX de Samsung Electronics y líder de Samsung Research, destacó el papel crucial de la experiencia práctica en IA de la compañía, señalando que se espera que TRUEBench establezca un estándar de evaluación y consolide el liderazgo tecnológico de Samsung en este ámbito.
El proceso de evaluación de TRUEBench va más allá de medir la simple precisión de las respuestas. Reconociendo que las instrucciones de los usuarios no siempre expresan de forma explícita sus intenciones, el sistema toma en cuenta también las condiciones implícitas. Este enfoque se logra mediante un proceso de colaboración entre humanos y IA que asegura la precisión de los criterios de evaluación, evitando sesgos subjetivos y garantizando consistencia.
Además, las muestras de datos y los rankings de TRUEBench están disponibles en la plataforma de código abierto Hugging Face, donde los usuarios pueden comparar hasta cinco modelos diferentes. La transparencia en el rendimiento se complementa con información sobre la longitud promedio de las respuestas, ofreciendo una visión integral de la eficiencia y efectividad de los modelos de IA en el mercado actual.
vía: Sala de Prensa de Samsung.