Creación de una Solución de Resumen de Audio Sin Servidores con Amazon Bedrock y Whisper

0
15
AWS Step Functions state machine for audio processing: Whisper transcription, speaker identification, and Bedrock summary tasks

En el ámbito de los negocios, las grabaciones de reuniones, entrevistas e interacciones con clientes se han vuelto indispensables para conservar información relevante. Sin embargo, la transcripción y el resumen manual de estas grabaciones suele ser un proceso lento y laborioso. Con los avances en inteligencia artificial generativa y el reconocimiento automático de voz, han surgido soluciones automatizadas que optimizan este proceso, haciéndolo más rápido y eficiente.

La protección de información personal identificable es un aspecto vital de la seguridad de datos, impulsado tanto por responsabilidades éticas como por requisitos legales. En la actualidad, se puede utilizar el modelo de fundación Open AI Whisper Large V3 Turbo, disponible en el Amazon Bedrock Marketplace. Esta plataforma ofrece acceso a más de 140 modelos a través de una API dedicada, permitiendo producir transcripciones casi en tiempo real. Estas transcripciones pueden ser luego procesadas por Amazon Bedrock para su resumen y la eliminación de información sensible.

Amazon Bedrock es un servicio completamente gestionado que brinda acceso a modelos de alto rendimiento de compañías líderes en IA como AI21 Labs, Anthropic, Cohere, entre otras. A través de este servicio, las organizaciones pueden construir aplicaciones de inteligencia artificial generativa con un fuerte enfoque en la seguridad y la privacidad. Además, Amazon Bedrock Guardrails permite la supresión automática de información sensible, incluidos datos personales, apoyando las necesidades de cumplimiento y protección de datos.

El proceso inicia con la carga de un archivo a través de una aplicación frontend basada en React, alojada en Amazon CloudFront y respaldada por Amazon S3 y Amazon API Gateway. La carga del archivo desencadena una máquina de estados de Step Functions que organiza los pasos de procesamiento, utilizando modelos de inteligencia artificial y funciones Lambda para facilitar un flujo de datos sin interrupciones. Este enfoque resalta el potencial de integrar tecnologías sin servidor con IA generativa para automatizar y escalar flujos de trabajo de procesamiento de contenido.

El flujo de trabajo se estructura en varias etapas, que incluyen la transcripción de audio, la identificación de hablantes y la generación de resúmenes. Un sistema automatizado hace que cada fase se complete antes de avanzar a la siguiente, con lógica de manejo de errores y reintentos incorporada. Al final, se muestra al usuario un resumen redactado de la grabación, preservando así la privacidad y cumpliendo con las normativas.

Esta solución no solo mejora la eficiencia en la gestión de información, sino que también promueve buenas prácticas de seguridad, protegiendo datos sensibles de manera efectiva. Áreas como la salud, finanzas y servicios legales, donde la privacidad del dato es primordial, se beneficiarán enormemente de la implementación de este tipo de tecnología.
vía: AWS machine learning blog