Contenedor de Inferencia de Modelos Grandes: Nuevas Capacidades y Mejoras en el Rendimiento

0
1
Large model inference container – latest capabilities and performance enhancements

Las implementaciones modernas de modelos de lenguaje grande (LLM) enfrentan crecientes desafíos en términos de costos y rendimiento, impulsados por el aumento en el conteo de tokens. Este conteo, que está directamente relacionado con la cantidad de palabras, el tamaño de las imágenes y otros factores de entrada, determina tanto los requisitos computacionales como los costos asociados. Los contextos más largos se traducen en mayores gastos por cada solicitud de inferencia. Esta situación se ha intensificado a medida que los modelos avanzados ahora soportan hasta 10 millones de tokens para satisfacer las crecientes demandas de contextos por parte de sistemas de generación aumentada de recuperación (RAG) y agentes de codificación que requieren bases de código y documentación extensas.

Sin embargo, investigaciones en la industria revelan que una proporción significativa del conteo de tokens en las cargas de trabajo de inferencia es repetitiva, con los mismos documentos y fragmentos de texto apareciendo en numerosos prompts. Estos «puntos calientes» de datos representan una oportunidad. Al almacenar en caché el contenido que se reutiliza con frecuencia, las organizaciones pueden lograr reducciones de costos y mejoras en el rendimiento para sus cargas de trabajo de inferencia de largo contexto.

Recientemente, Amazon Web Services (AWS) lanzó actualizaciones importantes para el contenedor de Inferencia de Modelos Grandes (LMI), que ofrecen mejoras de rendimiento, mayor soporte para modelos y capacidades de implementación simplificadas para los clientes que hospedan LLM en AWS. Estas actualizaciones se centran en reducir la complejidad operativa mientras se logran ganancias de rendimiento medibles en las arquitecturas de modelos más populares.

Una de las capacidades más significativas introducidas en las últimas versiones de LMI es el soporte integral de LMCache, que transforma fundamentalmente la forma en que las organizaciones pueden manejar las cargas de trabajo de inferencia de largo contexto. LMCache es una solución de almacenamiento en caché de clave-valor (KV) de código abierto que extrae y almacena cachés KV generados por motores LLM modernos, compartiendo estos cachés entre motores y consultas para ayudar a mejorar el rendimiento de inferencia.

A diferencia de los sistemas tradicionales de almacenamiento en caché basados únicamente en prefijos, LMCache reutiliza cachés KV de texto reutilizado, no necesariamente solo prefijos, en una instancia del motor de servicio. El sistema opera a nivel de fragmento, identificando tramos de texto comúnmente repetidos en documentos o conversaciones y almacenando su caché KV precomputado. Este enfoque permite un almacenamiento de múltiples niveles que abarca memoria GPU, memoria CPU y almacenamiento en disco/remoto, con un almacenamiento en caché inteligente que mantiene un índice interno que mapea secuencias de tokens a entradas de caché KV.

Las pruebas exhaustivas en varios tamaños de modelos y longitudes de contexto han revelado mejoras en el rendimiento que transforman la experiencia del usuario. Para las cargas de trabajo con contexto repetido, LMCache logra un tiempo más reducido hasta el primer token (TTFT) al procesar contextos de varios millones de tokens. Las organizaciones que implementan LMI pueden configurar la evacuación a la CPU cuando la memoria RAM de la instancia lo permita para un rendimiento óptimo, o utilizar NVMe con O_DIRECT habilitado para cargas de trabajo que requieren una mayor capacidad de caché.

Las características de rendimiento varían significativamente según el tamaño del modelo debido a las diferencias en los requisitos de memoria de caché KV por token. Los modelos más grandes requieren considerablemente más memoria por token, lo que significa que agotan la capacidad de caché KV de la GPU a longitudes de contexto mucho más cortas. Esto implica que LMCache proporciona valor en contextos más cortos para modelos más grandes.

Con el apoyo de LMCache y mejoras adicionales como el soporte para técnicas de decodificación especulativa EAGLE, que acelera la decodificación prediciendo tokens futuros directamente desde las capas ocultas del modelo, las organizaciones pueden experimentar una mejora notable en el rendimiento de la inferencia de sus LLM. Las nuevas versiones del LMI también ofrecen soporte ampliado para modelos de última generación y capacidades multimodales, permitiendo a las organizaciones implementar y escalar modelos con mayor eficiencia y reducir la complejidad operativa.
vía: AWS machine learning blog