NVIDIA Nemotron 3 Nano 30B MoE Ya Disponible en Amazon SageMaker JumpStart

0
1
NVIDIA Nemotron 3 Nano 30B MoE model is now available in Amazon SageMaker JumpStart

NVIDIA ha lanzado su nuevo modelo, el Nemotron 3 Nano 30B, que ofrece 3 mil millones de parámetros activos y ya está disponible en el catálogo de modelos de Amazon SageMaker JumpStart. Este modelo híbrido, diseñado para fomentar la innovación y aportar valor tangible a las empresas, permite a los desarrolladores potenciar aplicaciones de inteligencia artificial generativa sin enfrentar la complejidad del despliegue de modelos.

El Nemotron 3 Nano se destaca por su alta eficiencia computacional y precisión, permitiendo a los desarrolladores realizar tareas altamente especializadas a gran escala. Su arquitectura se basa en un modelo de mezcla de expertos (MoE), que combina una estructura Transformer-Mamba y soporta un presupuesto de tokens que optimiza la generación de razonamientos. Además, sus pesos, conjuntos de datos y recetas son completamente abiertos, lo que permite a los desarrolladores personalizar, optimizar y desplegar el modelo en su propia infraestructura, cumpliendo así con los requisitos de privacidad y seguridad.

Entre sus características más destacadas se encuentran su excelente desempeño en tareas de codificación, razonamiento científico y resolución de problemas matemáticos, así como su liderazgo en benchmarks de referencia como LiveCodeBench y GPQA Diamond. El modelo cuenta con una capacidad de ventana contextual de hasta un millón de tokens y es un modelo basado en texto que utiliza texto tanto para entradas como para salidas.

Para utilizar Nemotron 3 Nano, los usuarios deben tener un dominio de Amazon SageMaker Studio provisionado. A partir de ahí, pueden buscar el modelo dentro de la interfaz de SageMaker Studio, desplegarlo y probarlo, ya sea a través de la interfaz de línea de comandos de AWS o a través de código Python con el SageMaker SDK.

El modelo está disponible de forma totalmente administrada en SageMaker JumpStart, facilitando su implementación y uso. Los interesados pueden consultar la disponibilidad del paquete del modelo por región y explorar la documentación detallada y ejemplos de código en el repositorio de GitHub de NVIDIA. Con este lanzamiento, NVIDIA busca simplificar la adopción de modelos de inteligencia artificial generativa, permitiendo así que más empresas aprovechen el potencial de estas avanzadas soluciones tecnológicas.
vía: AWS machine learning blog