Optimización de Flujos de Trabajo de Preguntas y Respuestas en Video con Amazon Bedrock, Amazon Transcribe y un Diseño UX Reflexivo

0
86
Accelerate video Q&A workflows using Amazon Bedrock Knowledge Bases, Amazon Transcribe, and thoughtful UX design

Las organizaciones a menudo se ven abrumadas por la cantidad de contenido de video y audio que poseen, el cual puede contener perspectivas valiosas. Sin embargo, extraer esos conocimientos de manera eficiente y precisa sigue siendo un desafío. Recientemente, se ha presentado una solución innovadora para acelerar los flujos de trabajo de revisión de video y audio a través de una experiencia de usuario diseñada cuidadosamente, que permite la colaboración entre humanos e inteligencia artificial (IA).

Los profesionales en diversas áreas, como la abogacía, el periodismo, la creación de contenido y la práctica médica, deben revisar regularmente horas de grabaciones para extraer información veraz. Los métodos tradicionales de revisión manual o simples búsquedas de palabras clave en los transcripciones no son solo lentos, sino que pueden pasar por alto contextos importantes. Aunque existen herramientas de resumen impulsadas por IA más avanzadas, el riesgo de «alucinaciones» o información incorrecta puede resultar peligroso, especialmente en entornos de alto riesgo como la atención sanitaria o los procedimientos legales.

La aplicación llamada Recorded Voice Insight Extraction Webapp, también conocida como ReVIEW, aborda estos desafíos ofreciendo un método fluido para que los humanos colaboren con la IA, acelerando el proceso de revisión mientras se mantiene la precisión y la confianza en los resultados. Esta herramienta se basa en servicios como Amazon Transcribe y Amazon Bedrock, lo que permite el uso de modelos de fundación de alto rendimiento de empresas líderes de IA a través de una única API.

Una de las características destacadas de esta solución es la introducción de citas con marcas de tiempo, que permiten a los usuarios no solo recibir respuestas a sus preguntas basadas en la transcripción del archivo, sino también identificar los momentos específicos en los que se discutió la información. Esto se logra mediante una combinación de procesamiento previo de transcripciones, ingeniería de mensajes y salida estructurada de los modelos de lenguaje, facilitando así la experiencia del usuario al convertir las citas generadas por IA en botones interactivos que redirigen a la parte adecuada del video.

La aplicación permite a los usuarios cargar videos y realizar consultas sobre ellos. Por ejemplo, en un caso presentado, un usuario preguntó sobre las actualizaciones de un servicio de Amazon y, tras hacer clic en las citas proporcionadas, pudo corroborar la respuesta observando el segmento correspondiente del video. Este proceso refuerza la confianza en las respuestas generadas por la IA, ya que los usuarios pueden verificar la información ellos mismos.

El flujo de trabajo de la aplicación incluye varias etapas, desde la carga del archivo hasta el almacenamiento de la transcripción y la sincronicidad con una base de conocimientos, asegurando que los datos se manejen de forma eficiente y efectiva. La separación clara entre la lógica del frontend y del backend a través de un API Gateway también proporciona la flexibilidad de cambiar el frontend según las necesidades del usuario.

Esta solución no solo busca aumentar la productividad al manejar contenido multimedia, sino que también enfatiza la importancia del juicio humano en la toma de decisiones. Las organizaciones interesadas en optimizar su proceso de revisión de audio y video pueden explorar esta solución de código abierto y adaptarla a sus necesidades específicas. Además, se invita a los usuarios a contribuir con comentarios sobre su experiencia.
vía: AWS machine learning blog