Ejecutar Modelos DeepSeek R1 de Running Distilled Localmente en PCs Copilot+, Impulsados por Windows Copilot Runtime

0
62
Running Distilled DeepSeek R1 models locally on Copilot+ PCs, powered by Windows Copilot Runtime

La inteligencia artificial continúa avanzando a pasos agigantados, y los PCs Copilot+ están a la vanguardia de esta transformación. Con la reciente disponibilidad de DeepSeek R1 en Azure AI Foundry, se están introduciendo versiones optimizadas para unidades de procesamiento neural (NPU) que se integran directamente en estos dispositivos. Inicialmente, se lanzará con el Qualcomm Snapdragon X, seguido por Intel Core Ultra 200V y otros. El primer modelo que estará disponible es el DeepSeek-R1-Distill-Qwen-1.5B, que se podrá encontrar en el AI Toolkit, mientras que las variantes de 7B y 14B llegarán en breve.

Estas versiones optimizadas permiten a los desarrolladores construir y desplegar aplicaciones impulsadas por IA que funcionan de manera eficiente en el dispositivo, aprovechando al máximo las capacidades de las NPUs en los PCs Copilot+. Estas unidades ofrecen un motor sumamente eficaz para la inferencia de modelos, abriendo la puerta a un nuevo paradigma donde la IA generativa no solo se activa bajo demanda, sino que puede ofrecer servicios en funcionamiento semi-continuo. Esta nueva capacidad permite a los desarrolladores aprovechar potentes motores de razonamiento y crear experiencias proactivas y sostenidas.

El trabajo en Phi Silica ha sido crucial, ya que se ha logrado un inferenciamento altamente eficiente, logrando tiempos competitivos para el primer token y tasas de rendimiento, minimizando el impacto en la duración de la batería y el consumo de recursos del PC. Los modelos DeepSeek, optimizados para la NPU, incorporan aprendizajes y técnicas clave de este trabajo, como la separación de las diversas partes del modelo para equilibrar rendimiento y eficiencia, y el uso de cuantización de baja tasa de bits.

Los desarrolladores ya pueden probar DeepSeek en sus PCs Copilot+ al descargar la extensión de AI Toolkit para Visual Studio Code. Una vez disponible, podrán acceder al catálogo de modelos de DeepSeek optimizados en formato ONNX QDQ y experimentar con su rendimiento de manera sencilla. Además, también existe la opción de probar el modelo fuente alojado en la nube a través de Azure Foundry.

En cuanto a las optimizaciones de silicio, el modelo Qwen 1.5B incluye un tokenizador, una capa de incrustación, un modelo de procesamiento de contexto, un modelo de iteración de tokens y una cabeza de lenguaje. Se utilizan técnicas avanzadas de cuantización y se hace énfasis en optimizar las operaciones que requieren un mayor acceso a la memoria en la CPU, mientras que los bloques de transformación computacionalmente intensivos son procesados por la NPU.

El modelo resulta ser extremadamente rápido y eficiente, logrando un tiempo de respuesta de 130 ms y una tasa de rendimiento de 16 tokens por segundo en respuestas cortas, gracias a un diseño de ventana deslizante que optimiza su rendimiento, y el uso de un esquema de cuantización innovador que mejora notablemente la precisión frente a métodos anteriores.

Con estas nuevas capacidades, los usuarios podrán interactuar con modelos de IA de última generación completamente a nivel local, redefiniendo la manera en que se desarrollan y utilizan las aplicaciones de inteligencia artificial en dispositivos personales.
vía: Microsoft Windows blog