Presentamos la Transmisión Bidireccional para Inferencia en Tiempo Real en Amazon SageMaker AI

0
6
Introducing bidirectional streaming for real-time inference on Amazon SageMaker AI

En 2025, la inteligencia artificial generativa ha avanzado significativamente, pasando de la simple generación de texto a aplicaciones multimodales que abarcan desde la transcripción y traducción de audio hasta la creación de agentes de voz que requieren transmisión de datos en tiempo real. Las aplicaciones actuales demandan una interacción más dinámica: un diálogo continuo y en tiempo real entre los usuarios y los modelos, permitiendo que los datos fluyan simultáneamente en ambas direcciones a través de una conexión persistente. Un ejemplo de esto se puede observar en aplicaciones de conversión de voz a texto, donde es necesario transmitir el audio y recibir el texto transcrito de manera continua, lo que requiere capacidades de transmisión bidireccional.

Para satisfacer esta necesidad, se ha introducido la transmisión bidireccional en Amazon SageMaker AI Inference, lo que transforma la inferencia de una simple transacción a una conversación continua. En este nuevo modelo, el reconocimiento de voz se realiza en tiempo real, permitiendo que las palabras aparezcan en la pantalla a medida que son pronunciadas. Esto mejora notablemente la experiencia del usuario; por ejemplo, un agente de soporte puede ver la transcripción en tiempo real mientras el cliente describe un problema, lo que le permite responder immediatamente sin esperar a que el cliente termine de hablar. Este intercambio continuo hace que las interacciones de voz sean más fluidas, reactivas y humanas.

Además, se ha explicado cómo construir y desplegar un contenedor con capacidad de transmisión bidireccional a un punto de enlace de SageMaker AI. También se puede utilizar un contenedor propio o emplear los modelos y contenedores preconstruidos de Deepgram para habilitar esta función de transmisión en tiempo real.
La transmisión bidireccional permite que los datos fluyan en ambas direcciones a través de una sola conexión persistente, reemplazando el proceso tradicional de solicitudes de inferencia en el que el cliente debía esperar una respuesta completa antes de enviar la siguiente pregunta. Ahora, el cliente puede comenzar a hablar mientras el modelo procesa y transcribe simultáneamente, lo que optimiza la interacción.

Para implementar esta tecnología, SageMaker AI Inference combina protocolos HTTP/2 y WebSocket para permitir una comunicación en tiempo real, bidireccional entre los clientes y los modelos. Los usuarios ahora pueden ver los resultados a medida que se generan, gracias a un flujo de datos que permite la transmisión de palabras de manera continua.

La colaboración con Deepgram, un socio de AWS, ha permitido el desarrollo de modelos de voz AI de alta precisión, compatibles con la transmisión bidireccional en SageMaker. Estas innovaciones están diseñadas para facilitar la implementación y escalado de aplicaciones de IA en tiempo real, reduciendo la carga operativa que tradicionalmente se requería para mantener un procesamiento de audio seguro y eficiente.

En conclusión, la nueva capacidad de transmisión bidireccional en Amazon SageMaker AI no solo mejora la interacción establecida entre usuarios y modelos, sino que también abre un nuevo horizonte en el desarrollo de aplicaciones de inteligencia artificial en tiempo real. Con el soporte de modelos avanzados como los de Deepgram, los desarrolladores pueden ahora construir aplicaciones más dinámicas y responsivas, estimulando el crecimiento y la adopción de la inteligencia artificial en múltiples sectores.
vía: AWS machine learning blog