Optimización de Modelos de Razonamiento como DeepSeek con Optimización de Prompts en Amazon Bedrock

0
85
Optimize reasoning models like DeepSeek with prompt optimization on Amazon Bedrock

Los modelos DeepSeek-R1 han llegado al Amazon Bedrock Marketplace y Amazon SageMaker JumpStart, así como a un modelo sin servidor en Amazon Bedrock, destacando por su estilo de razonamiento extenso y elaborado. Según los resultados publicados por DeepSeek, estos modelos han demostrado un rendimiento notable en desafiantes pruebas matemáticas como AIME-2024 y MATH-500, así como un desempeño competitivo frente a modelos de última generación como Claude Sonnet 3.5 de Anthropic, GPT-4 y OpenAI O1.

Durante el entrenamiento, los investigadores encontraron que el modelo DeepSeek-R1-Zero aprende a resolver tareas más eficazmente cuando se le da más tiempo de reflexión, lo que incrementa su rendimiento. Sin embargo, un aspecto frecuentemente pasado por alto es la cantidad de «tokens de pensamiento» requeridos durante el tiempo de inferencia y el costo asociado a generarlos antes de proporcionar una respuesta.

Para optimizar modelos de razonamiento como DeepSeek-R1, se ha demostrado que la optimización de prompts en Amazon Bedrock puede ser una solución efectiva. Por ejemplo, al plantear un sencillo problema matemático sobre el perro de Nate, se ha podido constatar que a veces los modelos de razonamiento no logran concluir su razonamiento dentro del límite máximo de tokens, lo que impide llegar a una respuesta final.

Aumentar el presupuesto de tokens de salida permite al modelo reflexionar más tiempo. Con la expansión del límite de tokens de 2,048 a 4,096, se logra que el modelo realice un proceso de razonamiento más extenso antes de emitir una respuesta final. Por lo tanto, optimizar el uso de tokens de pensamiento se convierte en un objetivo crucial para obtener respuestas correctas.

El uso de la optimización de prompts ha mostrado resultados prometedores al aplicar la técnica a un conjunto de preguntas desafiantes conocido como «Último Examen de la Humanidad» (HLE). Este benchmark incluye preguntas que requieren conocimientos profundos y son resistentes a respuestas simples obtenidas mediante búsquedas en internet.

Al optimizar prompts, se ha logrado reducir significativamente el número de tokens de pensamiento sin sacrificar la precisión. Por ejemplo, tras aplicar la optimización en un problema que requería un alto nivel de comprensión física, se constató una reducción del 35% en los tokens de pensamiento, manteniendo la correcta respuesta. Asimismo, al aplicar esta misma técnica a un conjunto de 400 preguntas del HLE, se observó que la precisión general se incrementó de 8.75% a 11%, al tiempo que también se redujo el tiempo y el costo de procesamiento de las respuestas.

Esta mejora en la eficiencia y efectividad sugiere que la optimización de prompts puede ser una herramienta valiosa para desplegar modelos de razonamiento en entornos productivos donde la precisión y los recursos computacionales deben ser cuidadosamente gestionados. En el futuro, a medida que los modelos de inteligencia artificial continúan evolucionando, técnicas como la optimización de prompts serán cada vez más importantes para aplicaciones prácticas.
vía: AWS machine learning blog