En un avance significativo para la comunidad de inteligencia artificial, se ha presentado una innovadora solución que aborda el desperdicio de capacidad de GPU en modelos de Mixture of Experts (MoE). Muchas organizaciones y usuarios que están implementando múltiples modelos de IA personalizados a menudo enfrentan el reto de pagar por capacidad de GPU ociosa, especialmente cuando sus modelos individuales no reciben suficiente tráfico para justificar un punto de computación dedicado. Para mitigar esta problemática, se ha desarrollado una colaboración con la comunidad de vLLM, creando una solución eficiente para el servicio de Multi-Low-Rank Adaptation (Multi-LoRA) en modelos de MoE de código abierto como GPT-OSS y Qwen.
Multi-LoRA es un enfoque popular para el ajuste fino de modelos. En lugar de volver a entrenar todos los pesos de un modelo, esta técnica mantiene los pesos originales congelados e inyecta adaptadores entrenables pequeños en las capas del modelo. Durante la inferencia, múltiples modelos personalizados pueden compartir la misma GPU, intercambiando únicamente los adaptadores según la solicitud. Por ejemplo, cinco clientes que utilizan cada uno solo el 10% de una GPU dedicada pueden ser atendidos por una única GPU utilizando esta técnica, transformando así cinco GPUs infrautilizadas en una GPU compartida y eficiente.
La implementación de esta solución se ha incorporado en las implementaciones locales de vLLM a partir de la versión 0.15.0. Multi-LoRA ahora es compatible con varias familias de modelos MoE, incluyendo GPT-OSS, Qwen3-MoE, DeepSeek y Llama MoE. Además, se han realizado optimizaciones que benefician el hospedaje de modelos densos como Llama3.3 70B y Qwen3 32B. Gracias a optimizaciones específicas para Amazon, se han logrado mejoras adicionales en la latencia, alcanzando un aumento del 19% en Output Tokens Per Second (OTPS) y una reducción del 8% en el Time To First Token (TTFT) para GPT-OSS 20B.
El proceso de optimización inició con la identificación de cuellos de botella utilizando herramientas de profiling como NVIDIA Nsight Systems. Un hallazgo clave fue que el núcleo «fused_moe_lora» presentaba la mayor latencia. Se llevaron a cabo diversas mejoras, incluyendo la introducción de lógica de salida anticipada para evitar la ejecución innecesaria de núcleos y la implementación de Programmatic Dependent Launch (PDL), lo que permite superponer la ejecución de núcleos. El resultado final fue un incremento notable en el rendimiento, alcanzando hasta 171 OTPS y 124 ms TTFT para GPT-OSS 20B en configuraciones optimizadas.
Con la implementación de Multi-LoRA y las mejoras realizadas, el equipo detrás de esta iniciativa no solo ha logrado una reducción de costos en el uso de GPU, sino que también ha optimizado la eficiencia y la velocidad de respuesta de modelos de IA. Estas innovaciones están disponibles para su uso en plataformas como Amazon SageMaker y Amazon Bedrock, permitiendo a los desarrolladores y científicos de datos aprovechar al máximo sus recursos de cómputo.
vía: AWS machine learning blog





