Desbloquea la Escalabilidad Global de la Inferencia de IA con la Nueva Inferencia Cruzada Regional en Amazon Bedrock con Claude Sonnet 4.5 de Anthropic

0
2
Unlock global AI inference scalability using new global cross-Region inference on Amazon Bedrock with Anthropic’s Claude Sonnet 4.5

Las organizaciones están adoptando cada vez más las capacidades de inteligencia artificial generativa en sus aplicaciones para mejorar la experiencia del cliente, optimizar operaciones y fomentar la innovación. Sin embargo, a medida que las cargas de trabajo de IA generativa continúan creciendo, las empresas enfrentan nuevos retos para mantener un rendimiento, fiabilidad y disponibilidad coherentes de sus aplicaciones impulsadas por IA. Los clientes buscan escalar sus cargas de trabajo de inferencia de IA en múltiples regiones de AWS para mantener esa consistencia.

Para abordar esta necesidad, se ha introducido en Amazon Bedrock la inferencia cruzada entre regiones (CRIS, por sus siglas en inglés). Esta función gestionada redirige automáticamente las solicitudes de inferencia a través de múltiples regiones, permitiendo a las aplicaciones manejar ráfagas de tráfico sin dificultad y alcanzar un mayor rendimiento sin que los desarrolladores tengan que anticipar fluctuaciones en la demanda. La CRIS opera mediante «perfiles de inferencia», que definen un modelo base y las regiones a las que pueden ser dirigidas las solicitudes.

Recientemente, se ha anunciado la disponibilidad de la inferencia cruzada global con Claude Sonnet 4.5 de Anthropic en Amazon Bedrock. Con esta nueva funcionalidad, ahora los usuarios pueden optar entre un perfil de inferencia específico de una geografía o un perfil global. Esta evolución brinda mayor flexibilidad a las organizaciones, ya que Amazon Bedrock selecciona automáticamente la región comercial óptima dentro de la geografía seleccionada para procesar la solicitud de inferencia. La CRIS global mejora además la capacidad de gestionar solicitudes de inferencia hacia regiones comerciales disponibles en todo el mundo, optimizando así los recursos y permitiendo un mayor rendimiento del modelo, especialmente durante picos de uso no planificados.

La inferencia cruzada global ayuda a las organizaciones a manejar ráfagas de tráfico imprevistas utilizando recursos computacionales en diferentes regiones. Este sistema emplea un mecanismo inteligente de enrutamiento de solicitudes que considera factores como la disponibilidad del modelo, la capacidad y la latencia para redirigir las solicitudes a la región más adecuada.

Además, al usar la inferencia cruzada, Amazon CloudWatch y AWS CloudTrail continúan registrando entradas de registro solo en la región de origen, simplificando el monitoreo y la gestión, lo que permite a las organizaciones mantener una vista centralizada del rendimiento de sus aplicaciones. La seguridad de los datos se mantiene alta, ya que los datos transmitidos durante la inferencia cruzada se cifran y permanecen dentro de la red segura de AWS, lo que garantiza que la información sensible esté protegida a lo largo del proceso de inferencia.

Para comenzar a utilizar la inferencia cruzada global con Claude Sonnet 4.5, los desarrolladores deben realizar algunos pasos clave, como especificar el ID del perfil de inferencia global al hacer llamadas API a Amazon Bedrock y configurar los permisos adecuados mediante AWS Identity and Access Management.

La implementación de esta capacidad no solo optimiza el rendimiento y la fiabilidad de las aplicaciones de IA, sino que también ofrece mejoras en la eficiencia de costos, con un ahorro de aproximadamente un 10% en precios de tokens de entrada y salida en comparación con la inferencia cruzada geográfica tradicional. Así, las empresas pueden maximizar el valor de su inversión en Amazon Bedrock, permitiendo un uso más eficiente de los recursos y un mayor rendimiento sin costos adicionales.

Con la evolución de la inferencia cruzada global, las organizaciones que implementen esta capacidad podrán experimentar una mejora significativa en sus aplicaciones de IA, gestionando cargas de trabajo de gran volumen y escenarios de recuperación ante desastres de manera innovadora y efectiva.
vía: AWS machine learning blog