Reduce el Tiempo de Respuesta de la IA Conversacional mediante Inferencia en el Edge con AWS Local Zones

0
80
Reduce conversational AI response time through inference at the edge with AWS Local Zones

En los últimos años, los avances en inteligencia artificial generativa han dado lugar a una nueva generación de asistentes de inteligencia artificial conversacional, impulsados por modelos de base (FMs, por sus siglas en inglés). Estos asistentes, que permiten interacciones en tiempo real tanto por texto como por voz, pueden responder de manera natural a las conversaciones humanas. Sus aplicaciones abarcan diversos sectores, desde el servicio al cliente y la atención médica hasta la educación y la productividad personal y empresarial.

La implementación de estos asistentes se realiza, generalmente, directamente en los dispositivos de los usuarios, como teléfonos inteligentes, tabletas o computadoras de escritorio. Esto permite un procesamiento local rápido de entradas de voz o texto. Sin embargo, el modelo que potencia la comprensión del lenguaje natural y la generación de respuestas suele estar alojado en la nube, funcionando en potentes unidades de procesamiento gráfico (GPUs). Cuando el usuario interactúa con el asistente de inteligencia artificial, su dispositivo primero procesa la entrada de forma local, incluyendo la conversión de voz a texto (STT) para los agentes de voz, y compila un aviso que se transmite de forma segura a la FM en la nube. Esta FM analiza el aviso y comienza a generar una respuesta apropiada, que se retransmite al dispositivo del usuario. Este flujo de trabajo eficiente busca equilibrar las poderosas capacidades de las FM en la nube con la conveniencia y la rapidez de la interacción en el dispositivo local.

Uno de los principales retos en el desarrollo de estas aplicaciones es reducir la latencia de respuesta para facilitar interacciones naturales en tiempo real. La latencia de respuesta se refiere al tiempo que transcurre entre el final de la intervención del usuario y el inicio de la respuesta del asistente de inteligencia artificial. Esta demora tiene dos componentes principales: la latencia de procesamiento en el dispositivo y el tiempo hasta el primer token (TTFT, por sus siglas en inglés), que mide el intervalo entre el envío de un aviso a la nube y la recepción del primer token de respuesta. La optimización de la latencia de respuesta es clave para mejorar la experiencia del usuario en interfaces de inteligencia artificial conversacional.

Para minimizar el impacto de la latencia de la red, se puede implementar una arquitectura híbrida que extienda los servicios de AWS desde las regiones comerciales a ubicaciones más cercanas a los usuarios finales. Esto implica desplegar puntos de entrada adicionales para inferencia en los servicios de borde de AWS, utilizando estrategias de enrutamiento dinámico que distribuyen el tráfico entre la nube y las zonas locales, proporcionando tiempos de respuesta rápidos en función de las condiciones de la red y la ubicación del usuario.

Las zonas locales de AWS, una forma de infraestructura de borde que coloca ciertos servicios cerca de grandes poblaciones, permiten aplicaciones que requieren latencia muy baja o procesamiento local de datos. Estas zonas facilitan la implementación de modelos de inteligencia artificial que requieren un rendimiento óptimo y que pueden ser más eficientes y rentables al ser ajustados para tareas específicas.

Mediante pruebas comparativas, se ha demostrado que el despliegue de modelos de FM en estas zonas locales puede reducir significativamente la latencia, un factor crítico para aplicaciones en tiempo real como los asistentes de inteligencia artificial conversacional. Los resultados obtenidos mostraron mejoras notables en la latencia de respuesta al utilizar zonas locales en comparación con las configuraciones tradicionales en las regiones de la nube, permitiendo alcanzar tiempos de respuesta óptimos necesarios para interacciones acústicamente naturales, independientemente de la ubicación del usuario.

Finalmente, es fundamental limpiar los recursos creados en el proceso para evitar cargos adicionales y seguir prácticas recomendadas en la arquitectura de soluciones en la nube. Las zonas locales de AWS representan un avance significativo en la búsqueda de mejorar la experiencia del usuario y optimizar el rendimiento de las aplicaciones de inteligencia artificial conversacional.
vía: AWS machine learning blog