Creación de una Caché Semántica en Amazon OpenSearch Serverless y Amazon Bedrock

0
36
Build a read-through semantic cache with Amazon OpenSearch Serverless and Amazon Bedrock

La latencia y el costo son retos significativos en el campo de la inteligencia artificial generativa, especialmente cuando se utilizan modelos de lenguaje de gran tamaño (LLMs, por sus siglas en inglés). Estos modelos suelen procesar texto de manera secuencial, prediciendo un token a la vez, lo que puede introducir retrasos y afectar negativamente la experiencia del usuario. Además, la creciente demanda de aplicaciones impulsadas por IA ha llevado a un alto volumen de llamadas a estos modelos, superando potencialmente los límites presupuestarios y generando presiones financieras para las organizaciones.

Para abordar este problema, se ha presentado una estrategia de optimización de aplicaciones basadas en LLM. Dado el creciente interés en soluciones de IA eficientes y rentables, se propone un esquema de almacenamiento en caché de lectura intermedia sin servidor que utiliza patrones de datos repetidos. Con esta caché, los desarrolladores pueden guardar y acceder efectivamente a respuestas similares, mejorando así la eficiencia y los tiempos de respuesta de sus sistemas. La solución utiliza Amazon OpenSearch Serverless y Amazon Bedrock, un servicio totalmente gestionado que ofrece modelos base de alto rendimiento de empresas líderes en IA a través de una sola API, con capacidades amplias para construir aplicaciones de IA generativa con seguridad, privacidad y responsabilidad.

En esta solución, la caché funciona como un buffer que intercepta las solicitudes expresadas en lenguaje natural antes de que lleguen al modelo principal. Almacena consultas semánticamente similares, permitiendo una recuperación rápida sin necesidad de enviar la solicitud al LLM para una nueva generación. Esto es crucial para equilibrar entre aumentar los aciertos de caché y reducir las colisiones de caché.

Por ejemplo, un asistente de AI para una empresa de viajes puede priorizar un alto recuerdo, guardando más respuestas incluso si ocasionalmente hay superposición de solicitudes. Contrariamente, un asistente para consultas de agentes puede necesitar asignaciones precisas para cada solicitud, minimizando los errores.

Este sistema de caché opera almacenando incrustaciones vectoriales numéricas de consultas de texto, transformándolas en vectores antes de ser almacenadas. Al seleccionar modelos de incrustación administrados desde Amazon Bedrock, es posible establecer bases de datos de vectores con OpenSearch Serverless para un sistema de caché robusto.

Al implementar esta solución, no solo se mejoran los tiempos de respuesta, sino que también se logra una reducción considerable en costos. Los modelos de incrustación, en general, resultan más económicos en comparación con los de generación, lo que asegura eficiencia de costos para numerosos casos de uso.

Esta innovación no solo representa una mejora en la eficiencia de los sistemas LLM, sino que también optimiza la experiencia del usuario, permitiendo ajustar umbrales de similitud para equilibrar adecuadamente aciertos y colisiones en la caché.
vía: AWS machine learning blog