Mejorando la Relleno de Slots en Amazon Lex Mediante Puntuaciones de Confianza en la Transcripción

0
32
Using transcription confidence scores to improve slot filling in Amazon Lex

El desarrollo de chatbots habilitados para voz ha encontrado un nuevo aliado en Amazon Lex, que optimiza la interacción con los usuarios al capturar su entrada de voz de forma precisa. Un desafío clave en este proceso es la captura exacta de datos específicos, como números de cuenta o códigos de confirmación, donde la precisión del reconocimiento del habla es esencial. Para abordar este aspecto, Amazon Lex introduce las puntuaciones de confianza de transcripción, una herramienta que promete mejorar la fiabilidad en la completitud de datos.

Las puntuaciones de confianza de transcripción son indicadores que reflejan el nivel de certeza de Amazon Lex sobre la conversión de voz a texto en relación a los valores de slot. Estas puntuaciones, que varían entre niveles bajos y altos, son independientes de las puntuaciones de reconocimiento de intención o entidad. Para cada valor de slot hablado, Lex proporciona una puntuación de confianza que permite a los desarrolladores validar la correcta comprensión de la entrada, decidir si es necesario solicitar una confirmación o volver a intentar la pregunta, e incluso ramificar los flujos de conversación según el nivel de confianza alcanzado.

Existen diversas estrategias para aprovechar estas puntuaciones de forma efectiva en el manejo de slots. Una de estas es la confirmación progresiva, que recomienda cómo actuar según el nivel de confianza: una puntuación alta (superior a 0.9) sugiere aceptar el valor, mientras que puntuaciones medias o bajas invitan a confirmar la entrada o a solicitar al usuario que repita la información. También se propone la re-pregunta adaptativa, que adapta los mensajes de re-pregunta según el nivel de confianza, y la lógica de ramificación, que permite redirigir a un agente humano si se registran varios intentos de baja confianza.

Este enfoque se refleja en las interacciones cotidianas que los usuarios pueden tener al comunicarse con un agente virtual. La implementación de estas pautas no solo reduce los errores en la captura de información crítica, sino que también mejora las tasas de auto-servicio y permite una mejor gestión de las condiciones de audio desafiantes. Al hacerlo, se habilitan flujos de conversación más inteligentes que optimizan la experiencia del cliente.

La solución se complementa con una arquitectura que integra un bot de Amazon Lex con Amazon Connect, creando un flujo conversacional robusto. Esta integración permite a Amazon Lex evaluar el grado de confianza en las transcripciones durante las interacciones, ajustando el proceso de confirmación en consecuencia. Los ejemplos prácticos de conversaciones muestran cómo la confianza en la transcripción afecta la manera en que el agente virtual responde, lo que mejora la experiencia del usuario al facilitar una interacción más fluida.

Para implementar esta solución, se requiere una cuenta de AWS y ciertos permisos para gestionar los recursos necesarios. A partir de ahí, se pueden seguir una serie de pasos para crear y configurar el bot de Amazon Lex y el flujo de Amazon Connect. La configuración de la lógica de puntuación de confianza de la transcripción se puede realizar fácilmente a través de la Visual Conversation Builder, diseñada para facilitar la personalización del flujo conversacional.

Sin embargo, es importante tener en cuenta algunas limitaciones. Actualmente, las puntuaciones de confianza de transcripción están disponibles solo en inglés y para entradas de audio de 8 kHz. Además, no se generarán puntuaciones de confianza para las entradas de audio provenientes de la ventana de prueba de Amazon Lex V2.

Finalmente, la capacidad de optimizar la experiencia del usuario se convierte en una prioridad fundamental para cualquier diseñador de conversaciones en Amazon Lex. Al implementar este tipo de características, se logra un diálogo más natural y se mantiene la precisión en la captura de información vital, lo que se traduce en una experiencia más satisfactoria para el usuario a lo largo de toda su interacción.
vía: AWS machine learning blog