La adopción de modelos de lenguaje de gran escala (LLMs) ha transformado la interacción entre las personas y la tecnología. Sin embargo, su implementación a gran escala enfrenta desafíos significativos relacionados con la latencia en la inferencia, el throughput limitado y los elevados costos de generación de texto. Estas ineficiencias son especialmente evidentes durante eventos de alta demanda como el Amazon Prime Day, donde sistemas como Rufus, asistente de compras impulsado por inteligencia artificial de Amazon, deben gestionar una carga masiva y cumplir con estrictos requisitos de latencia y rendimiento.
Rufus está diseñado para ayudar a los consumidores a tomar decisiones de compra informadas, brindando respuestas a diversas consultas sobre productos y facilitando la experiencia de compra. Para ofrecer este nivel de servicio, Rufus depende de varios componentes, incluyendo un modelo LLM de base para la generación de respuestas y un modelo de planificación de consultas que optimiza la clasificación de preguntas y la recuperación de información. La eficiencia de este sistema es crucial, ya que la generación de texto solo puede comenzar después de que el modelo de planificación complete su tarea.
Con el Prime Day de 2024 a la vista, Rufus enfrentó el desafío de manejar millones de consultas por minuto, generando miles de millones de tokens en tiempo real, mientras se esforzaba por mantener un compromiso de latencia de 300 ms. Para abordar esta situación, se requirió un replanteamiento fundamental de cómo se implementan los LLMs a gran escala, superando así los cuellos de botella de costo y rendimiento.
En este contexto, la implementación de la técnica de decodificación paralela ha demostrado ser fundamental. Este enfoque permite que Rufus genere múltiples tokens simultáneamente, eliminando las ineficiencias del enfoque secuencial tradicional. Durante esta jornada de compras, el equipo de Rufus logró acentuar el rendimiento al utilizar chips de inteligencia artificial de AWS, que no solo duplicaron la velocidad de generación de texto, sino que también permitieron una reducción del 50% en los costos de inferencia.
Los resultados fueron reveladores: Rufus mostró una capacidad de respuesta rápida que mejoró notablemente la experiencia del cliente. Esta combinación de decodificación paralela y soluciones de AWS facilitó un despliegue simplificado y permitió manejar el tráfico máximo sin sacrificar la calidad de respuesta.
La sinergia lograda por la implementación y optimización del modelo demuestra el potencial de las soluciones de inteligencia artificial en la creación de experiencias de compra más fluidas y eficientes. De cara al futuro, la integración del marco Neuronx-Distributed Inference (NxDI) y los chips de AWS representa un paso significativo hacia la escalabilidad y viabilidad económica de los LLMs, lo que promete abrir nuevas oportunidades para aplicaciones futuras en el ámbito de la inteligencia artificial.
vía: AWS machine learning blog