Amazon ha anunciado que la función de «prompt caching» está ahora disponible de manera general en Amazon Bedrock, mejorando la eficiencia en la generación de respuestas de modelos como Claude 3.5 Haiku y Claude 3.7 Sonnet. Esta nueva capacidad permite reducir la latencia de respuesta en hasta un 85% y minimizar costos operativos hasta en un 90% al almacenar en caché los «prompts» que se utilizan frecuentemente a través de múltiples llamadas a la API.
El «prompt caching» permite a los usuarios marcar partes específicas de sus solicitudes para ser almacenadas en caché, conocidas como «prompt prefixes». Cuando se realiza una solicitud que incluye un «prompt prefix» coincidente, el modelo procesa la entrada y guarda el estado interno asociado. En las solicitudes siguientes, si se encuentra un «prefix» coincidente, el modelo puede acceder a la memoria caché y omitir los pasos de computación necesarios para procesar los tokens de entrada. Esto resulta en un tiempo de respuesta más rápido y un uso más eficiente del hardware, lo que a su vez traslada los ahorros de costos a los usuarios.
Este componente de Amazon Bedrock optimiza la fase de procesamiento de tokens de entrada, que es fundamental en el funcionamiento de los modelos de lenguaje de gran escala. Utilizando puntos de control de caché, los desarrolladores pueden crear una estructura más efectiva y organizada en sus «prompts», aumentando así las posibilidades de coincidencias en la memoria caché y, por ende, mejorando el rendimiento general.
El uso de esta función es especialmente recomendado para cargas de trabajo que implican «prompts» de contexto largo y repetido, como aplicaciones de asistencia mediante chat, asistentes de programación o flujos de trabajo donde la coherencia del sistema es crucial. Para maximizar los beneficios del «prompt caching», es aconsejable estructurar el contenido de manera que la información estática como instrucciones y ejemplos se incluya al principio, reservando el contenido dinámico, como la información específica del usuario, para el final de la solicitud.
Las métricas de rendimiento sobre el uso de la memoria caché, incluidos los conteos de tokens leídos y escritos, son fundamentales para optimizar la eficiencia y realizar un seguimiento de los ahorros de costos generados por esta nueva funcionalidad. Estos datos estarán disponibles a través de la sección de respuesta API, lo que facilitará a los desarrolladores gestionar su estrategia de caché y mejorar la capacidad de respuesta de sus aplicaciones.
Mientras que el «prompt caching» presenta importantes ventajas, su efectividad puede disminuir en escenarios donde se utilicen «prompts» extremadamente largos y dinámicos. En tales casos, los desarrolladores deberán evaluar cuidadosamente la estructura de sus «prompts» para garantizar que se logre el máximo rendimiento.
Además, la función de «prompt caching» se puede utilizar en conjunto con la inferencia interregional de Amazon Bedrock, que optimiza la selección de la región de AWS más adecuada para las solicitudes, garantizando una disponibilidad de recursos y modelos más efectiva durante períodos de alta demanda.
vía: AWS machine learning blog