Un nuevo enfoque en la inteligencia artificial promete revolucionar la forma en que los modelos de lenguaje identifican la verdad y mejoran la consistencia de sus respuestas. Utilizando un enfoque innovador conocido como «debate de modelos de lenguaje grandes» (LLM Debates), científicos han desarrollado una metodología donde dos LLMs argumentan a favor de posturas opuestas durante tres rondas, en un formato diseñado para evaluar y mejorar la precisión factual.
Este método es especialmente útil en situaciones donde la anotación manual de datos para establecer verdades objetivas es costosa, lenta y potencialmente polémica. A través de la generación de datos sintéticos, los LLM debates no solo pueden acelerar la alineación y curación de verdades objetivas en conjuntos de datos no supervisados y en bruto, sino también contribuir al entrenamiento de modelos de lenguaje más grandes y robustos.
Inspirada en uno de los mejores trabajos de la Conferencia Internacional sobre Aprendizaje Automático (ICML) 2024, esta técnica se basa en el uso del dataset «TofuEval». Cada ejercicio de debate LLM presenta a dos modelos, Claude 3 Sonnet de Anthropic y Mixtral 8X7B, quienes defienden lados opuestos de un argumento, mientras que un tercer modelo, Mistral 7B, actúa como juez para determinar el lado más convincente.
Dentro del entorno Azure, estos debates son ejecutados mediante Amazon Sagemaker y Bedrock, ofreciendo la infraestructura necesaria para manejar la complejidad del proceso. Así, Amazon Bedrock es destacada como una solución integral que facilita la experimentación, personalización y despliegue de capacidades de IA generativa.
El mayor desafío es evaluar el resumen más consistente de dos propuestas basadas en un conjunto de transcripciones proporcionado, enfrentando errores como el cambio de significado sutil y errores de razonamiento. Cuatro técnicas diferentes son comparadas en este contexto: Juez Ingenuo, Juez Experto, Consultoría LLM, y Debates LLM.
Cada técnica ofrece un nivel de precisión en la veracidad distinta, siendo el método de debate el más efectivo con un 70% de precisión en los experimentos. Por otro lado, el método de juez ingenuo sirve como línea base con una precisión del 10%.
Los avances en LLM Debates no solo muestran mejoras significativas en la precisión factual, sino que también sugieren un camino hacia la reducción de costes y tiempos en la anotación manual. Este enfoque promete, en última instancia, establecer un nuevo estándar en la generación de datos precisos y confiables para entrenar modelos de lenguaje avanzados, allanando el camino para mejoras sustanciales en aplicaciones de inteligencia artificial conversacional y orientada a tareas.
vía: AWS machine learning blog