Amazon ha anunciado importantes mejoras en el rendimiento de su servicio Amazon Bedrock, especialmente en la función de Importación de Modelos Personalizados. Con estas optimizaciones, la compañía promete una reducción significativa de la latencia de extremo a extremo, tiempos más rápidos para la primera generación de tokens y un aumento en el rendimiento a través de técnicas avanzadas de compilación de PyTorch y optimizaciones de grafos CUDA. Esta capacidad permite a los usuarios traer sus propios modelos fundamentales para su despliegue y uso a gran escala en Amazon Bedrock.
Una de las innovaciones clave es la implementación de la caché de artefactos de compilación, que se encarga de mitigar los posibles contratiempos asociados a la inicialización de modelos, al tiempo que se preservan las métricas de rendimiento estándar que los clientes tienen como expectativas. De esta forma, los usuarios experimentan una leve demora inicial al arrancar un modelo por primera vez, pero los modelos subsiguientes pueden iniciarse rápidamente gracias a la reutilización de estos artefactos previamente generados.
El motor de inferencia se encarga de almacenar artefactos de compilación, eliminando la necesidad de realizar cálculos repetidos al inicio. Cuando se inicia la primera instancia de un modelo, se generan artefactos de compilación, como gráficos computacionales optimizados y configuraciones de kernel, que son reutilizados en instancias posteriores, permitiendo un arranque más ágil. Esta eficiencia es aún más robusta ya que el sistema utiliza identificadores únicos basados en parámetros de configuración del modelo, asegurando que los artefactos almacenados se ajusten perfectamente a los requisitos de cada instancia del modelo.
Las pruebas de rendimiento realizadas muestran resultados positivos en diferentes tamaños de modelos y patrones de carga. Con un enfoque en un rango de 1 a 32 solicitudes concurrentes, se ha observado que las optimizaciones mejoran significativamente diversos métricas clave, desde el tiempo hasta el primer token (TTFT) hasta la latencia general (E2E) y el rendimiento de tokens por segundo (OTPS). Modelos como el Granite 20B, optimizado para tareas de generación de código, y el Llama 3.1, dirigido a seguir instrucciones generales, han demostrado mejoras notables en eficiencia, permitiendo a los usuarios disfrutar de respuestas más inmediatas y fluidas.
Los análisis han revelado que los beneficios en el rendimiento se mantienen consistentes incluso bajo diferentes condiciones de carga, lo que significa que las aplicaciones pueden atender a más usuarios con tiempos de respuesta mejorados sin necesidad de aumentar la infraestructura. Esto es crucial para aplicaciones críticas como chatbots y generadores de contenidos de IA, que pueden escalar más rápidamente durante picos de uso.
En resumen, estas actualizaciones en Amazon Bedrock Custom Model Import no solo ofrecen una mejora en la experiencia del usuario, sino que también garantizan una mayor eficiencia en la infraestructura, continuamente adaptándose a las necesidades del mercado sin comprometer la calidad del servicio. Los usuarios actuales pueden beneficiarse de inmediato, mientras que los nuevos usuarios comenzarán a experimentar estas mejoras desde su primer despliegue.
vía: AWS machine learning blog





