Las organizaciones que adoptan inteligencia artificial generativa a través de plataformas como Amazon Bedrock se encuentran ante el reto de gestionar los costos asociados a un modelo de precios basado en tokens. Este sistema de pago por uso puede resultar en facturas inesperadas y excesivas si no se realiza un seguimiento cuidadoso del uso. Los métodos tradicionales de monitoreo de costos, como las alertas presupuestarias y la detección de anomalías, suelen ser reactivos, por lo que es fundamental utilizar indicadores tanto adelantados como rezagados para manejarlos de manera proactiva.
Los indicadores adelantados son señales predictivas que permiten anticipar tendencias o problemas antes de que se materialicen completamente, mientras que los indicadores rezagados son mediciones retrospectivas que confirman lo que ya ha ocurrido. Comprender y rastrear ambos tipos de indicadores posibilita a las organizaciones tomar decisiones más estratégicas y ágiles.
En un enfoque dividido en dos partes, se propone una solución integral para gestionar proactivamente los costos de inferencia de Amazon Bedrock. Este sistema incluye un mecanismo de vigilancia de costos diseñado para establecer y hacer cumplir límites de uso de tokens, permitiendo a las organizaciones controlar sus gastos en inteligencia artificial generativa. La primera parte de este análisis se centra en la arquitectura central, diseño del sistema de vigilancia de costos, seguimiento del uso de tokens y estrategias iniciales de cumplimiento presupuestario. En la segunda parte, se abordarán técnicas de monitoreo avanzadas, etiquetado personalizado, informes y mejores prácticas para la optimización a largo plazo de costos.
Amazon Bedrock aplica una política de facturación basada en el uso de tokens, en la que los costos dependen de los tokens de entrada y salida utilizados, así como del modelo y la región de AWS donde se realiza la inferencia. Los desarrolladores deben implementar estrategias sólidas de gestión de tokens en sus aplicaciones para prevenir costos descontrolados, asegurándose de que las aplicaciones de inteligencia artificial generativa incluyan dispositivos de corte y límites de consumo que se alineen con las restricciones presupuestarias.
Para abordar este desafío, se pueden configurar alarmas en Amazon CloudWatch o monitorear costos mediante alertas de facturación y presupuestos; sin embargo, estas medidas suelen examinar los costos o el uso después de que ya se han producido. Otra opción es la Solución Generativa AI Gateway disponible en la biblioteca de soluciones de AWS, que utiliza LiteLLM para hacer cumplir límites presupuestarios para Amazon Bedrock y otros proveedores de modelos.
Este enfoque proporciona un mecanismo centralizado proactivo que puede limitar el uso de inteligencia artificial generativa a un presupuesto específico, el cual puede ser ajustado según sea necesario. Utilizando flujos de trabajo sin servidor y una integración nativa con Amazon Bedrock, se logra menos complejidad operativa junto con un rendimiento a gran escala.
En la construcción de aplicaciones con Amazon Bedrock, es común acceder al servicio a través de una API desarrollada, ya sea de manera síncrona a través de una REST API o de forma asíncrona empleando un sistema de colas. Para interacciones síncronas, los clientes realizan llamadas directas a la API de Amazon Bedrock, pasando los parámetros necesarios. En arquitecturas asíncronas, estos clientes envían solicitudes de inferencia a una cola o a un intermediario de mensajes.
El flujo de trabajo del limitador de tasa tiene como núcleo un sistema de funciones de AWS que monitoriza el uso de tokens y lo compara con límites predefinidos para determinar si una solicitud de inferencia debería ser autorizada o denegada. Gracias a este sistema, se busca mantener las aplicaciones de inteligencia artificial generativa dentro de los márgenes del presupuesto estipulado.
Para la integración y seguimiento del uso de tokens, se utiliza la métrica de Amazon CloudWatch, que permite obtener datos en tiempo real del uso de tokens, lo que a su vez ayuda a cumplir con los límites presupuestarios de manera proactiva. Mediante este enfoque, las organizaciones pueden establecer límites de uso específicos para diferentes modelos de Amazon Bedrock, además de contar con la capacidad de actualizar estos límites fácilmente según sea necesario.
El análisis del rendimiento del flujo de trabajo del limitador de tasa ha demostrado un manejo excepcional en diversas solicitudes de inferencia, mostrando tiempos de ejecución que varían entre 6.76 y 32.24 segundos. Esto refleja la flexibilidad del sistema para adaptar sus capacidades a diferentes requerimientos de tamaño de respuesta.
Finalmente, un estudio de costos revela que el flujo de trabajo de Step Functions Express resulta ser una solución más económica en comparación con el estándar, ofreciendo posibles ahorros significativos. Con este sistema, se mejora la previsibilidad en los gastos de implementación de inteligencia artificial generativa y se asegura un control más eficaz sobre los mismos.
vía: AWS machine learning blog