Ajuste Fino de Modelos de Lenguaje Extensos Mediante Aprendizaje por Refuerzo con Retroalimentación Humana o de IA

0
20
Fine-tune large language models with reinforcement learning from human or AI feedback

Los modelos de lenguaje grande (LLMs) están mostrando su versatilidad al ser utilizados en diversas tareas de procesamiento del lenguaje natural (NLP), que van desde diálogos simples hasta tareas más complejas como la toma de decisiones y la generación de resúmenes. Sin embargo, el uso de tecnologías como la ingeniería de prompts y el ajuste fino supervisado a menudo demuestra ser insuficiente para alinear correctamente estos modelos con las intenciones del usuario. Estos métodos pueden dar lugar a comportamientos no deseados, como la generación de información errónea, contenido sesgado o tóxico, y respuestas poco útiles.

La mejora en el entrenamiento de los LLMs mediante el aprendizaje supervisado puede ayudar a ajustar el modelo, pero no aborda las sutilezas éticas y sociales que son difíciles de encapsular en ejemplos simples. Por esta razón, el ajuste fino supervisado puede resultar en comportamientos no intencionados que van en contra del objetivo original.

Una alternativa emergente es la utilización de modelos de recompensa entrenados mediante el feedback humano, que permiten refinar los comportamientos de los LLMs en función de las preferencias y valores humanos. Este enfoque se conoce como entrenamiento por refuerzo con retroalimentación humana (RLHF, por sus siglas en inglés). Sin embargo, recientes investigaciones han señalado que la retroalimentación directa de otros modelos de lenguaje puede ser una forma efectiva de escalar el desarrollo de modelos de recompensa, lo cual se denomina superalineación utilizando retroalimentación de IA (RLAIF).

En este contexto, RLAIF permite utilizar múltiples LLMs, cada uno especializado en un tipo de preferencia humana, como relevancia, concisión o toxicidad, con el fin de evitar la necesidad de servicios de anotación humana, haciendo que el proceso sea más eficiente. La técnica ha mostrado promesas en la creación de sistemas que siguen siendo útiles, honestos y no perjudiciales, aun cuando algunas capacidades de IA alcancen o superen el rendimiento humano.

La implementación de un caso de uso de RLAIF puede involucrar la generación de respuestas en un conjunto de datos de diálogos, con el objetivo de reducir la toxicidad en las respuestas generadas. Para ello, se pueden utilizar modelos de recompensa que ya están disponibles públicamente para realizar el ajuste fino de LLMs, evaluando posteriormente el éxito de este ajuste mediante pruebas en un conjunto de datos reservado.

En conclusión, el desarrollo y ajuste de LLMs sigue siendo un campo dinámico y en evolución, donde técnicas como RLAIF ofrecen nuevas oportunidades para mejorar la alineación de la IA con las preferencias y valores humanos, garantizando así respuestas más útiles y menos perjudiciales. La investigación continua en esta área es esencial para superar los desafíos éticos y técnicos asociados con la inteligencia artificial contemporánea.
vía: AWS machine learning blog