DeepSeek AI ha anunciado la disponibilidad de su modelo de lenguaje de primera generación, DeepSeek-R1, en las plataformas Amazon SageMaker JumpStart y Amazon Bedrock Marketplace. Este desarrollo permitirá a los usuarios de Amazon Web Services (AWS) implementar el modelo para realizar inferencias, facilitando la creación, experimentación y escalamiento responsable de ideas de inteligencia artificial generativa.
DeepSeek-R1 es un modelo de lenguaje desarrollado mediante aprendizaje por refuerzo, que mejora sus capacidades de razonamiento a través de un proceso de entrenamiento en varias etapas basado en la fundación DeepSeek-V3-Base. Una de sus características distintivas es la incorporación de un paso de aprendizaje por refuerzo, que refina las respuestas del modelo más allá de los métodos tradicionales de pre-entrenamiento y ajuste fino. Esto permite a DeepSeek-R1 adaptarse de manera más efectiva al feedback de los usuarios, mejorando la relevancia y claridad de las respuestas.
El modelo emplea un enfoque conocido como «cadena de pensamiento», que le permite desglosar consultas complejas y razonarlas de manera metódica, produciendo respuestas más precisas y detalladas. Con una arquitectura de Mezcla de Expertos (MoE) y un tamaño de 671 mil millones de parámetros, activando 37 mil millones de ellos para garantizar una inferencia eficiente, DeepSeek-R1 se posiciona como un modelo versátil, capaz de integrarse en diversas aplicaciones.
Los usuarios interesados pueden desplegar el modelo a través de SageMaker JumpStart o el Marketplace de Bedrock, aunque se recomienda implementar medidas de seguridad, como las Amazon Bedrock Guardrails, para prevenir contenidos dañinos y evaluar los modelos según criterios de seguridad clave.
Para iniciar el proceso de implementación, se requiere acceso a una instancia específica de AWS y permisos de Amazon Identity and Access Management (IAM). DeepSeek-R1 se puede probar en el entorno de juego de Amazon Bedrock, permitiendo a los desarrolladores experimentar con diferentes consultas antes de integrarlo en sus aplicaciones.
Con esta nueva oferta, DeepSeek AI busca fortalecer su presencia en el mercado de modelos de lenguaje, prometiendo a los desarrolladores herramientas potentes para crear soluciones innovadoras mediante inteligencia artificial generativa. La implementación del modelo y sus guardrails está diseñada para proteger tanto a los usuarios como a las aplicaciones, asegurando un entorno seguro para el uso de tecnologías avanzadas en el ámbito de la inteligencia artificial.
vía: AWS machine learning blog