Personalización de Modelos Destilados DeepSeek-R1 con Recetas de HyperPod en Amazon SageMaker – Parte 1

0
91
Customize DeepSeek-R1 distilled models using Amazon SageMaker HyperPod recipes – Part 1

Cada vez más, las organizaciones de diversas industrias están optando por modelos de inteligencia artificial generativa (IA) como los modelos de fundación (FMs) para mejorar sus aplicaciones. La necesidad de personalizar estos FMs según requerimientos específicos de su dominio se ha vuelto esencial, especialmente con la aparición de nuevos modelos, como los lanzados por DeepSeek.

No obstante, la personalización efectiva de estos modelos de DeepSeek, al mismo tiempo que se gestionan recursos computacionales, representa un desafío significativo. Ajustar la arquitectura del modelo requiere una considerable pericia técnica y habilidades para entrenar y ajustar parámetros, lo que a menudo obliga a las empresas a elegir entre el rendimiento del modelo y las limitaciones prácticas de implementación. Esto ha derivado en una demanda crítica por soluciones más accesibles y simplificadas para la personalización de modelos.

En una reciente serie de dos partes, se discute cómo reducir la complejidad de la personalización de modelos de DeepSeek utilizando flujos de trabajo de ajuste fino preconstruidos, conocidos como «recetas», disponibles para el modelo DeepSeek-R1 y sus variaciones destiladas, en el contexto de Amazon SageMaker HyperPod. En la primera entrega, se presenta una arquitectura de solución para el ajuste fino de modelos destilados de DeepSeek-R1, mostrando un ejemplo detallado de personalización utilizando el modelo DeepSeek-R1 Distill Qwen 7b. Este proceso ha logrado un promedio del 25% en todas las puntuaciones ROUGE, alcanzando un impresionante 49% en la puntuación ROUGE-2, gracias al uso de Amazon SageMaker HyperPod y los trabajos de formación de SageMaker.

Con la reciente disponibilidad de las recetas de Amazon SageMaker HyperPod, que permiten a científicos de datos y desarrolladores de toda habilidad comenzar a entrenar y ajustar modelos de IA generativa en minutos, se está democratizando el acceso a estas herramientas avanzadas. Estas recetas facilitan tareas críticas, como la carga de conjuntos de datos de entrenamiento y la aplicación de técnicas de entrenamiento distribuidas, eliminando así gran parte del trabajo tedioso que tradicionalmente acompaña experimentos con configuraciones de modelos.

El diseño modular de la arquitectura también permite la escalabilidad y la flexibilidad, lo que la hace particularmente eficaz para entrenar modelos de lenguaje de gran tamaño que requieren capacidades de computación distribuidas. Para ayudar a los clientes a utilizar rápidamente los potentes y rentables modelos de DeepSeek, se han liberado nuevas recetas que permiten ajustar seis modelos de DeepSeek, Implementando técnicas de ajuste fino supervisado y adaptaciones de bajo rango.

En un caso práctico del sector salud, se plantea un uso innovador para crear una aplicación de asistencia médica que explique información compleja de forma amigable al paciente. El ajuste fino del modelo DeepSeek-R1 Distill Qwen 7b, utilizando un conjunto de datos médico específico, resulta vital para lograr que las respuestas se mantengan alineadas con el rigor clínico necesario.

Al final del ciclo de ajuste, se observa un notable incremento en la eficiencia del modelo adaptado, alcanzando mejores puntuaciones en las métricas ROUGE, lo que sugiere que futuras extensiones en la duración del entrenamiento podrían generar aún mayores ganancias en rendimiento. Esta serie subraya no solo la innovación en la personalización de IA, sino también el potencial de optimizar el uso de recursos computacionales en entornos empresariales.
vía: AWS machine learning blog