Creación automática de vídeos doblados usando Amazon Translate, Amazon Bedrock y Amazon Polly

0
42
Video auto-dubbing using Amazon Translate, Amazon Bedrock, and Amazon Polly

El doblaje de video o la localización de contenidos es el proceso de reemplazar el idioma original hablado en un video por otro idioma, mientras se sincronizan audio y video. Este método se ha convertido en una herramienta clave para superar barreras lingüísticas, mejorar la participación de la audiencia y expandir el alcance del mercado. Sin embargo, los métodos tradicionales de doblaje resultan costosos y requieren mucho tiempo, con un costo aproximado de $20 por minuto con la intervención de un revisor humano. Aquí es donde el doblaje automático mediante inteligencia artificial generativa entra en juego, ofreciendo a los creadores una solución asequible y eficiente.

En este contexto, presentamos una solución económica para el doblaje automático de video. Utilizamos Amazon Translate para la traducción inicial de los subtítulos del video y Amazon Bedrock para la post-edición, mejorando así la calidad de la traducción. Amazon Translate es un servicio de traducción automática neuronal que ofrece traducciones rápidas, de alta calidad y asequibles. Por otro lado, Amazon Bedrock es un servicio de gestión completa que ofrece una selección de modelos fundacionales de alto rendimiento de empresas líderes en IA mediante una API única y una amplia gama de capacidades para ayudar a construir aplicaciones de IA generativa con seguridad, privacidad y responsabilidad.

MagellanTV, una plataforma líder de transmisión de documentales, busca ampliar su presencia global a través de la internacionalización del contenido. Ante los desafíos del doblaje manual y los costos prohibitivos, MagellanTV buscó al socio del nivel Premier de AWS, Mission Cloud, para una solución innovadora.

La solución de Mission Cloud se destaca por su detección idiomática y reemplazo automático, escalado de tiempo automático sin interrupciones y capacidades de procesamiento por lotes flexibles con mayor eficiencia y escalabilidad. El proceso comienza con la especificación de entradas por parte del usuario en una plantilla de Excel que se carga en un bucket de Amazon S3 designado, lanzando así toda la tubería. Los resultados finales incluyen un archivo de video doblado y un archivo de subtítulos traducidos.

Utilizamos Amazon Translate para traducir los subtítulos del video y Amazon Bedrock para mejorar la calidad de la traducción y habilitar el escalado de tiempo automático para sincronizar audio y video. Amazon Augmented AI se emplea para que los editores revisen el contenido, el cual se envía luego a Amazon Polly para generar voces sintéticas para el video. Además, desarrollamos un modelo para predecir la expresión de género del hablante y asignar una expresión de género que coincida con el orador.

En el backend, AWS Step Functions orquesta los pasos anteriores como una tubería, cada paso se ejecuta en AWS Lambda o AWS Batch. Gracias a la herramienta de infraestructura como código (IaC) AWS CloudFormation, la tubería se vuelve reutilizable para el doblaje de nuevos idiomas extranjeros.

Amazon Translate se eligió por tres factores clave: su soporte para más de 75 idiomas, la buena precisión de la traducción validada por profesionales y sus beneficios únicos como la capacidad de agregar glosarios terminológicos personalizados.

Amazon Bedrock se usa para la post-edición, mejorando la calidad de los subtítulos del video después de la traducción inicial de Amazon Translate. La detección y reemplazo de idioms adapten especialmente en géneros con más conversación casual. Por ejemplo, para géneros científicos que tienen menos idioms, se puede desactivar la detección de idioms. Para géneros más informales, se activa esta función.

El algoritmo de acortamiento de oraciones desarrollado con Amazon Bedrock mejora significativamente el rendimiento del doblaje de video y reduce el esfuerzo de revisión humana, resultando en ahorro de costos.

Esta nueva y en constante desarrollo pipeline ha sido un paso revolucionario para MagellanTV, ya que resolvió eficientemente algunos desafíos comunes dentro de las empresas de medios y entretenimiento. La pipeline única desarrollada por Mission Cloud crea nuevas oportunidades para distribuir contenido a nivel mundial, ahorrando costos al usar IA generativa en conjunto con soluciones brillantes para la detección y resolución de idioms, acortamiento de oraciones y terminología y tono personalizados.
vía: AWS machine learning blog