Las organizaciones están cada vez más interesadas en mejorar las experiencias de sus clientes a través de interacciones vocales naturales y receptivas en sus sistemas telefónicos. En este contexto, Amazon ha lanzado Nova Sonic, un modelo de inteligencia artificial generativa de voz a voz que proporciona conversaciones de voz en tiempo real con baja latencia y un intercambio natural. Este modelo no solo comprende el habla con diferentes acentos y estilos de conversación, sino que también responde con voces expresivas en múltiples idiomas y maneja interrupciones de manera efectiva. Integrable a través de la API de streaming bidireccional de Amazon Bedrock, Nova Sonic puede conectarse a los datos de una empresa y a herramientas externas, lo que permite su integración directa con sistemas telefónicos.
La modalidad de voz hace que Amazon Nova Sonic sea especialmente adecuado para aplicaciones telefónicas donde es crucial preservar las sutilezas de la conversación y minimizar la latencia. Este modelo es ideal para escenarios como centros de llamadas automatizados que requieren interacciones similares a las humanas, campañas proactivas de llamadas y recepcionistas virtuales.
Para integrar Amazon Nova Sonic en la arquitectura telefónica, es necesario contar con un servidor de aplicaciones que conecte y mantenga una conexión de streaming bidireccional persistente con Nova Sonic. Las implementaciones de ejemplos más comunes incluyen la integración con el Protocolo de Inicio de Sesión (SIP) y proveedores de telefonía como Vonage, Twilio y Genesys, así como marcos de código abierto para construir aplicaciones telefónicas, como Pipecat y LiveKit. Estos enfoques abarcan un espectro que va desde sistemas PBX heredados hasta comunicaciones modernas en la nube, brindando múltiples vías para conectar Nova Sonic con las redes telefónicas.
Las aplicaciones típicas de Amazon Nova Sonic incluyen operaciones de centros de llamadas, donde puede manejar consultas de servicio al cliente, soporte técnico y transacciones rutinarias a través de conversaciones naturales. Puede reemplazar sistemas IVR tradicionales, permitiendo que los clientes expresen sus necesidades sin tener que navegar por menús telefónicos. Además, en funciones de recepcionista y outreach, Nova Sonic puede conectarse a sistemas como CRM y calendarios, manejando la programación y aumentando la personalización de las interacciones en función del historial del cliente.
La integración de Nova Sonic con la infraestructura SIP requiere un servidor de aplicaciones que actúe como intermediario. Este servidor gestiona tanto la señalización SIP como los flujos de medios en tiempo real, manteniendo la conexión con la API de streaming bidireccional de Nova Sonic. Los servidores SIP se pueden ejecutar en instancias de Amazon Elastic Compute Cloud (EC2) o desplegarse en contenedores utilizando Amazon Elastic Container Service (ECS).
Los proveedores de telefonía en la nube como Vonage, Twilio y Genesys ofrecen servicios de voz gestionados que simplifican la complejidad de la infraestructura telefónica tradicional a través de APIs sencillas. Con la integración de Vonage, por ejemplo, las empresas pueden desplegar agentes de voz en tiempo real sin gestionar la complicada infraestructura telefónica, ya que Vonage maneja la ruta de las llamadas, el streaming de audio y la traducción de protocolos.
Asimismo, integrar Nova Sonic con marcos de código abierto como Pipecat y LiveKit puede acelerar el desarrollo de aplicaciones de IA conversacional. Estos marcos proporcionan componentes preconstruidos y interfaces estandarizadas que facilitan la creación de experiencias interactivas.
En conclusión, las capacidades de voz a voz de Amazon Nova Sonic abren nuevas posibilidades para construir aplicaciones vocales naturales y receptivas a través de diversas arquitecturas telefónicas. Ya sea utilizando integración directa con SIP, proveedores de telefonía en la nube o marcos de código abierto, hay múltiples caminos para aprovechar este innovador modelo de inteligencia artificial y crear experiencias de voz que realmente sean conversacionales.
vía: AWS machine learning blog





