A medida que las organizaciones amplían su uso de la inteligencia artificial generativa, muchos de sus procesos requieren una forma de procesamiento por lotes más rentable, en lugar de respuestas en tiempo real. Amazon Bedrock ha introducido la inferencia por lotes para abordar esta necesidad, permitiendo que grandes conjuntos de datos sean procesados de forma masiva con un rendimiento predecible y a un costo un 50% inferior al de la inferencia bajo demanda. Esto lo convierte en una herramienta ideal para tareas como el análisis de datos históricos, la summarización de textos a gran escala y cargas de trabajo de procesamiento en segundo plano.
Este desarrollo se complementa con una serie de mejoras en Amazon Bedrock que refuerzan el soporte de modelos, optimizan el rendimiento y aumentan la transparencia de costos. Entre las novedades destacan la inclusión de modelos adicionales como Claude Sonnet 4 de Anthropic y modelos de OpenAI, así como mejoras en el rendimiento que aumentan el rendimiento por lote en comparación con modelos anteriores.
La administración y el monitoreo de los trabajos de inferencia por lotes se pueden realizar utilizando Amazon CloudWatch, lo que facilita el seguimiento del progreso de las tareas enviadas sin necesidad de construir soluciones de monitoreo personalizadas. Esto proporciona una visibilidad completa sobre cómo van los trabajos a nivel de cuenta AWS.
Los casos de uso recomendados para la inferencia por lotes incluyen procesos no sensibles al tiempo que pueden tolerar retrasos de minutos a horas, análisis de datos históricos, enriquecimiento de bases de conocimiento a gran escala y verificaciones de cumplimiento normativo sobre contenido sensible.
Para lanzar un trabajo de inferencia por lotes en Amazon Bedrock, los usuarios pueden usar la Consola de Administración de AWS, los SDKs de AWS o la interfaz de línea de comandos de AWS (CLI). El proceso es accesible y permite a los usuarios especificar detalles como el nombre del trabajo, el modelo a utilizar y los ubicaciones de datos de entrada y salida.
Además, Amazon Bedrock ahora publica métricas automáticamente para estos trabajos en el espacio de nombres AWS/Bedrock/Batch. Estas métricas permiten a los usuarios rastrear el progreso de cargas de trabajo en lotes, brindando información crítica sobre el tamaño del backlog, la cantidad de registros pendientes y el rendimiento general.
Las mejores prácticas para la administración de la inferencia por lotes sugieren un enfoque proactivo al monitorear costos y desempeño, usando métricas clave de rendimiento y configurando alertas automáticas, lo que permite ajustar la programación de trabajos según sea necesario.
Con estas novedades, Amazon Bedrock no solo optimiza el rendimiento de la inferencia por lotes, sino que también proporciona herramientas poderosas para maximizar la eficiencia y el valor de las cargas de trabajo de inteligencia artificial generativa. Las organizaciones están invitadas a comenzar el proceso de implementación para aprovechar estas soluciones.
vía: AWS machine learning blog