Los modelos de lenguaje grandes (LLMs) han demostrado ser eficaces en tareas generales, pero suelen presentar dificultades en trabajos especializados que requieren la comprensión de datos internos y terminología específica del sector. La adaptación de estos modelos a contextos organizacionales se logra a través de un proceso conocido como fine-tuning supervisado (SFT). Este proceso puede realizarse con dos metodologías diferentes: el ajuste de parámetros eficientes (PEFT), que actualiza solo un subconjunto de parámetros del modelo, permitiendo un entrenamiento más rápido y con menores costos computacionales, y el SFT de rango completo, que actualiza todos los parámetros del modelo y, por lo tanto, incorpora un conocimiento más extenso del dominio.
Sin embargo, el SFT de rango completo enfrenta un desafío importante conocido como «olvido catastrófico». A medida que los modelos aprenden patrones específicos de un dominio, pueden perder capacidades generales como el seguimiento de instrucciones, el razonamiento y el conocimiento amplio. Esto obliga a las organizaciones a elegir entre la especialización del dominio y la inteligencia general, limitando así la utilidad del modelo en diferentes casos de uso empresarial.
Amazon ha introducido una solución a este problema con Nova Forge, un nuevo servicio que permite a los usuarios construir sus propios modelos de frontera utilizando Nova. Los clientes de Nova Forge pueden iniciar su desarrollo desde puntos de control de modelos tempranos, combinar datos propios con datos de entrenamiento curados por Amazon Nova y alojar sus modelos personalizados de manera segura en AWS.
Un equipo de ciencia aplicada de AWS China llevó a cabo una evaluación exhaustiva de Nova Forge utilizando una compleja tarea de clasificación de la Voz del Cliente (VOC), que se evaluó contra modelos de código abierto. Trabajando con más de 16,000 muestras de comentarios de clientes y una jerarquía de etiquetas de cuatro niveles que contenía 1,420 categorías, se demostró que el enfoque de mezcla de datos de Nova Forge ofrece dos ventajas destacadas: un aumento del 17% en el puntaje F1 en el rendimiento de tareas en dominio y la preservación de capacidades generales, manteniendo puntuaciones MMLU (Massive Multitask Language Understanding) cercanas a la línea base y habilidades de seguimiento de instrucciones tras el ajuste.
La clasificación de comentarios de clientes presenta un escenario típico en grandes empresas de comercio electrónico, donde el equipo de experiencia del cliente recibe miles de comentarios diarios. Para operar de manera eficiente, necesitan un LLM que clasifique automáticamente cada comentario en categorías accionables con alta precisión, lo que requiere especialización en el dominio, a la vez que el modelo debe ser capaz de generar respuestas adecuadas al cliente, realizar análisis de datos y redactar documentación siguiendo pautas específicas.
La metodología de evaluación implementada incluyó un marco de evaluación dual que mide el rendimiento en dos dimensiones. Para la evaluación del rendimiento específico del dominio, se utilizó un conjunto de datos real de VOC derivado de reseñas de clientes. En esta evaluación, se observó que los modelos ajustados lograban mejoras significativas en el F1-score mientras conservaban sus capacidades generales, lo que destaca la efectividad de la mezcla de datos de Nova en mitigar el olvido catastrófico.
Los resultados subrayan que al emplear una mezcla de datos durante el ajuste, es posible mantener una alta capacidad de rendimiento en tareas específicas sin sacrificar las habilidades generales del modelo. Los hallazgos sugieren prácticas recomendadas, como utilizar el SFT supervisado para maximizar el rendimiento en el dominio y aplicar la mezcla de datos de Nova cuando se esperan múltiples flujos de trabajo de propósito general en producción.
En conclusión, Nova Forge demuestra cómo las organizaciones pueden construir modelos de IA especializados sin renunciar a la inteligencia general, ofreciendo además beneficios adicionales en el desarrollo y la implementación de soluciones de IA generativa en entornos empresariales.
vía: AWS machine learning blog





