Optimización de Modelos DeepSeek-R1 Destilados con Hugging Face TGI en Amazon SageMaker AI

0
85
Optimize hosting DeepSeek-R1 distilled models with Hugging Face TGI on Amazon SageMaker AI

DeepSeek AI, una innovadora startup de inteligencia artificial, ha lanzado DeepSeek-R1, un modelo de lenguaje de última generación que se distingue por su proceso de entrenamiento en múltiples etapas. A diferencia de los modelos tradicionales que utilizan solo pre-entrenamiento y ajuste fino, DeepSeek-R1 incorpora el aprendizaje por refuerzo, lo que permite obtener resultados más refinados y precisos. El modelo utiliza un enfoque de cadena de pensamiento (CoT) que descompone sistemáticamente consultas complejas en pasos lógicos claros, lo que mejora la claridad en las respuestas generadas.

Además, DeepSeek-R1 adopta las construcciones de ejecución paralela de subprocesos de NVIDIA, lo que optimiza la eficiencia durante el entrenamiento. Su marco combina el ajuste fino supervisado (SFT) y la optimización de política robusta en grupos (GRPO) para garantizar resultados que sean tanto transparentes como interpretable.

En la actualidad, la colección de modelos de DeepSeek incluye varias variantes. Por ejemplo, DeepSeek-V3 emplea una arquitectura de Mezcla de Expertos (MoE) que permite activar solo un conjunto limitado de subredes para cada entrada, lo que mejora la eficiencia en comparación con las redes neuronales tradicionales. Por otro lado, DeepSeek-R1-Zero es una variante de DeepSeek-V3 que utiliza aprendizaje por refuerzo para mejorar su capacidad de razonamiento, pero enfrenta desafíos en legibilidad y mezcla de lenguajes.

DeepSeek-R1, también basado en DeepSeek-V3, ha sido diseñado con un proceso de entrenamiento más sofisticado, lo que incluye la incorporación de datos de SFT a través de muestreo por rechazo. Este modelo ha pasado por un ciclo adicional de aprendizaje reforzado, resultando en un modelo robusto y eficiente.

Otra opción interesante es DeepSeek-R1-Distill, que consiste en variantes de los modelos Qwen y Llama, resultantes de un proceso de destilación de conocimiento en el que DeepSeek-R1 actúa como maestro. Estas versiones destiladas mantienen su arquitectura original pero obtienen capacidades de razonamiento mejoradas.

En un anuncio relacionado, se ha demostrado cómo optimizar el alojamiento de los modelos destilados de DeepSeek-R1 utilizando Hugging Face Text Generation Inference (TGI) en Amazon SageMaker AI. Este marco de inferencia está diseñado para gestionar los desafiantes requisitos de latencia y computación de modelos de lenguaje avanzados. SageMaker AI facilita la implementación de estos modelos optimizados con TGI, ofreciendo integración avanzada con la pila de inferencia de Hugging Face para asegurar un despliegue escalable y rentable.

Los beneficios de TGI incluyen la paralelización de tensores, el batching continuo, la cuantización, la decodificación especulativa, la optimización de la caché clave-valor y el streaming de tokens en tiempo real, aumentando la eficiencia de la generación de texto a gran escala.

Amazon SageMaker AI permite desplegar modelos de DeepSeek-R1 con gran facilidad, gracias a su autoscalado y balanceo de carga automático. Esto maximiza la eficiencia de recursos y reduce costes, especialmente durante horas no pico. La flexibilidad en la implementación también se extiende a la posibilidad de alojar modelos de forma privada mediante cargas en un bucket de S3.

Cada variante de DeepSeek-R1 ha sido evaluada en función de su rendimiento de inferencia a través de métricas críticás, lo cual es fundamental para asegurar la escalabilidad y efectividad de su uso en aplicaciones reales.
vía: AWS machine learning blog