Mejora la Accesibilidad de tus Videos con Descripciones de Audio Automáticas Usando Amazon Nova

IA y Robótica

Mejora la Accesibilidad de tus Videos con Descripciones de Audio Automáticas Usando Amazon Nova

Elena Digital López

13 de junio de 2025

Mejora la Accesibilidad de tus Videos con Descripciones de Audio Automáticas Usando Amazon Nova

Más de 2.2 mil millones de personas en todo el mundo padecen alguna forma de discapacidad visual, según la Organización Mundial de la Salud. Esto ha generado un creciente interés en la accesibilidad en los medios visuales, como la televisión y el cine, donde se hace obligatorio ofrecer descripciones de audio para las personas con discapacidades visuales, en cumplimiento con legislaciones como la Ley de Estadounidenses con Discapacidades (ADA, por sus siglas en inglés).

Para que la producción y distribución de contenido audiovisual cumpla con estos requisitos, a menudo se requieren recursos significativos, como creadores de contenido, narradores y personal técnico. Este enfoque tradicional puede resultar costoso, ya que la creación de descripciones de audio a veces puede costar hasta 25 dólares por minuto cuando se contratan terceros. Sin embargo, la introducción de modelos de inteligencia artificial generativa como los de Amazon Nova, que fueron anunciados recientemente, promete automatizar parte de este proceso.

La nueva familia de modelos Amazon Nova, disponible a través de Amazon Bedrock, presenta tres versiones: Amazon Nova Lite, Amazon Nova Pro y Amazon Nova Premier. Estos modelos multimodales están diseñados para transformar de manera eficiente el análisis de contenido audiovisual en descripciones accesibles. Este enfoque no solo podría reducir los costos, sino también el tiempo necesario para generar este contenido, que puede ser crucial para cumplir con los estándares de accesibilidad.

El proceso propuesto incluye la utilización de varios servicios de Amazon como Amazon Rekognition, que permite segmentar videos al identificar cambios visuales, y Amazon Polly, que convierte las descripciones de texto en audio. A través de una serie de pasos que incluyen el análisis de contenido y la generación de audio, se puede crear un flujo de trabajo automatizado que enable a las empresas de medios a ofrecer contenido accesible. Aunque no se presenta como una solución completa lista para ser implementada, proporciona un marco que los interesados pueden codificar y personalizar.

La implementación de una solución automatizada de descripciones de audio podría transformar la forma en que las empresas abordan la accesibilidad en su contenido. A medida que el interés por cumplir con las normativas de accesibilidad continúa creciendo, el uso de tecnologías de inteligencia artificial, como las ofrecidas por Amazon, se perfila como un recurso invaluable para mejorar la inclusión de las personas con discapacidades visuales.
vía: AWS machine learning blog