DPG Media, un destacado grupo mediático en el Benelux, ha dado un paso significativo hacia la modernización de sus procesos de gestión de datos mediante la incorporación de inteligencia artificial. Ante el desafío de manejar un vasto y creciente catálogo de contenido audiovisual a través de su plataforma VTM GO, que ofrece más de 500 días de contenido sin interrupciones, la compañía ha optado por integrar tecnologías de Amazon como Bedrock y Transcribe en sus flujos de publicación de video. Esta transformación en su enfoque busca optimizar la generación y administración de metadatos de los contenidos.
Con el incremento en su biblioteca de videos, DPG Media reconoció la necesidad crítica de gestionar de manera eficiente los metadatos que describen contenidos, tales como la información sobre actores, géneros, resúmenes de episodios y estado anímico de los programas. La precisión en estos datos no solo mejora las descripciones en las guías de televisión, sino que también refina las recomendaciones de contenido, así como la exploración por parte de los consumidores.
Entre los principales retos al iniciar este camino de automatización se encontraban la diversidad de idiomas, la variabilidad en el volumen de contenido y la frecuencia de lanzamientos, factores que complican la estandarización de metadatos. Otro reto significativo fue la agregación de datos, que necesita ser consolidada de manera confiable a lo largo de diferentes temporadas de un show.
Para superar estos desafíos, DPG Media optó por un enfoque que se centra en el procesamiento de audio, descartando el análisis de datos de video por su alto costo y tiempo de procesamiento. Se diseñó un sistema de dos pasos: primero, la generación de transcripciones de pistas de audio mediante modelos de reconocimiento de voz, y segundo, la extracción y generación de metadatos detallados usando modelos de lenguaje extensivo (LLMs).
En la etapa inicial del proyecto, DPG Media evaluó diferentes estrategias de transcripción. Finalmente, se inclinó por Amazon Transcribe, una solución gerenciada que proporciona transcripciones de audio precisas, soportando actualizaciones automáticas de modelos y funciones de diarización de locutores. Por otro lado, la generación de metadatos se confió a Amazon Bedrock, utilizando el modelo Anthropic Claude 3 Sonnet, seleccionado por su rendimiento en la lengua holandesa y su capacidad de razonamiento.
La implementación de esta solución ha ayudado a DPG Media a ahorrar considerable tiempo en la generación de metadatos, optimizando el trabajo desde la producción de subtítulos hasta la creación de resúmenes detallados de series completas. Si bien el sistema genera automáticamente los metadatos, se decidió mantener una validación humana para garantizar la calidad del resultado final antes de que éste sea presentado a los clientes finales. Este enfoque no sólo mejora la experiencia del usuario al proporcionar recomendaciones de contenido más precisas, sino que también fortalece el compromiso de DPG Media de integrar las capacidades humanas con tecnologías avanzadas.
La iniciativa refleja un paso hacia la modernización continua y la mejoría de la experiencia de los consumidores en una industria en constante evolución. DPG Media continúa explorando nuevas oportunidades para experimentar con modelos adicionales y mejorar sus sistemas a medida que la tecnología avanza, buscando siempre hacer coincidir la oferta de contenido con los hábitos de consumo moderno y las innovaciones tecnológicas.
vía: AWS machine learning blog