Con el auge de los grandes modelos de lenguaje (LLMs) y las aplicaciones de inteligencia artificial generativa, la necesidad de soluciones de inferencia eficientes, escalables y de baja latencia se ha incrementado notablemente. Sin embargo, los sistemas de inferencia tradicionales a menudo tienen dificultades para cumplir estas demandas, especialmente en entornos distribuidos y multi-nodo. Para abordar estos desafíos, NVIDIA presenta Dynamo, un marco de trabajo de inferencia de código abierto diseñado para optimizar el rendimiento y la escalabilidad.
NVIDIA Dynamo es compatible con varios servicios de AWS, como Amazon S3, Elastic Fabric Adapter (EFA) y Amazon Elastic Kubernetes Service (EKS). Además, puede implementarse en instancias de Amazon EC2 aceleradas por GPU, incluyendo las recién anunciadas P6, que están impulsadas por la arquitectura NVIDIA Blackwell.
El marco está diseñado para ser independiente del motor de inferencia, lo que permite a los desarrolladores seleccionar los componentes de servicio de inferencia, servidores API frontend y bibliotecas de transferencia de datos que se ajusten a sus necesidades específicas. Entre las principales características de Dynamo se encuentran la separación de las fases de prellenado y decodificación de los LLM, la optimización dinámica de recursos de GPU, y un enrutador inteligente que minimiza la recomputación de datos para mejorar el rendimiento.
Una de las innovaciones más significativas de NVIDIA Dynamo es el «Planificador Dynamo», que gestiona los recursos de GPU de manera efectiva en ambientes de inferencia dinámica. Este componente monitorea señales en tiempo real, como tasas de solicitud y longitudes de secuencia, para asignar inteligentemente los recursos necesarios, asegurando un uso óptimo y adaptándose a los picos de demanda.
El «Enrutador Inteligente» de Dynamo facilita la reutilización de la memoria caché de clave-valor (KV), dirigiendo las solicitudes a los trabajadores que ya poseen los datos necesarios, lo que resulta en una reducción del tiempo de inferencia y un uso más eficiente de los recursos de GPU.
Por otro lado, el «Gestor de Bloques KV» de Dynamo aborda el desafío de almacenar grandes volúmenes de datos de referencia en la costosa memoria de alto ancho de banda de GPU, implementando un enfoque jerárquico que permite mover bloques de caché menos solicitados a opciones de almacenamiento más económicas.
El marco también incluye NIXL, una biblioteca de comunicación diseñada para optimizar la transferencia de datos a alta velocidad entre GPU, lo que es crítico para mantener un rendimiento elevado en implementaciones de IA distribuidas.
Amazon EKS se posiciona como la plataforma ideal para ejecutar cargas de trabajo de inferencia LLM distribuidas, gracias a su integración robusta con otros servicios de AWS y sus características de rendimiento. Con el soporte de Karpenter para escalado automático y EFA para conectividad de baja latencia, se simplifica la gestión de los recursos necesarios.
A medida que las empresas continúan explorando las posibilidades de la inteligencia artificial y los modelos de lenguaje, NVIDIA Dynamo se presenta como una solución prometedora que combina innovación tecnológica con eficiencia, permitiendo a las organizaciones aprovechar al máximo sus inversiones en IA.
vía: AWS machine learning blog