Automatización de la Creación de Notas Informativas con Amazon Bedrock

0
27
Automate the creation of handout notes using Amazon Bedrock Data Automation

Las organizaciones de diferentes sectores se enfrentan a importantes desafíos al convertir grabaciones de reuniones o presentaciones en documentos estructurados. Elaborar materiales a partir de presentaciones implica un gran esfuerzo manual, como revisar grabaciones para identificar cambios de diapositivas, transcribir el contenido hablado, capturar y organizar capturas de pantalla, sincronizar elementos visuales con notas del ponente y formatear el contenido. Estos obstáculos afectan la productividad y escalabilidad, especialmente al gestionar múltiples grabaciones de presentaciones, sesiones de conferencias, materiales de capacitación y contenido educativo.

Para simplificar este proceso, una solución automatizada y sin servidor se presenta como una solución eficaz. Utilizando Amazon Bedrock Data Automation para el análisis de video, se puede transformar grabaciones de seminarios web en minutas completas. Esta implementación permite transcribir diálogos y detectar cambios de diapositivas, además de utilizar modelos de base de Amazon Bedrock para refinar las transcripciones, todo ello orquestado por funciones personalizadas de AWS Lambda y AWS Step Functions.

La automatización de datos de Amazon Bedrock utiliza inteligencia artificial generativa para convertir datos multimodales, como imágenes y videos, en formatos estructurados personalizables. Esto incluye resúmenes de escenas en videos y la identificación de contenido explícito. La solución permite extraer segmentos de audio y diversos planos de videos.

El flujo de trabajo de esta solución comienza al subir un video a Amazon Simple Storage Service (S3), lo que desencadena una notificación de evento a través de Amazon EventBridge, dando inicio al procesamiento del video. Amazon Bedrock Data Automation arranca un trabajo de transformación para identificar cambios y, tras completar este trabajo, se sincronizan el contenido hablado con las imágenes visuales. Posteriormente, se genera un paso paralelo que crea capturas de pantalla de las diapositivas y refina las transcripciones, corrigiendo errores y eliminando disfluencias del habla.

Finalmente, se generan las minutas utilizando la biblioteca Python-PPTX, que combina las transcripciones refinadas con las imágenes generadas. Los materiales resultantes se almacenan en Amazon S3, listos para su distribución. Esta solución no solo reduce significativamente el esfuerzo manual requerido en la creación de materiales, sino que también facilita la integración y escalabilidad en organizaciones de diversos tamaños y sectores.
vía: AWS machine learning blog