Transformación de la Generación Musical con AWS Trainium y Amazon SageMaker HyperPod en Splash Music

0
3
Splash Music transforms music generation using AWS Trainium and Amazon SageMaker HyperPod

La inteligencia artificial generativa está transformando rápidamente la industria musical, brindando a los creadores, sin importar su nivel de habilidad, la capacidad de crear pistas de calidad de estudio a través de modelos de base que personalizan las composiciones en tiempo real. Ante el creciente interés por contenido único generado al instante, Splash Music se asoció con AWS para desarrollar y escalar modelos de generación musical, logrando así que la creación profesional de música sea accesible para millones de personas.

Splash Music ha establecido un nuevo estándar en la creación musical impulsada por IA, gracias a su modelo HummingLM, desarrollado en colaboración con el Centro de Innovación en IA Generativa de AWS. Como parte de la edición 2024 del Acelerador de IA Generativa de AWS, la compañía trabajó estrechamente con AWS Startups y el centro para acelerar la innovación en su ciclo de desarrollo de modelos de generación musical.

La plataforma ha empoderado a una nueva generación de creadores, alcanzando más de 600 millones de transmisiones en todo el mundo. Al ofrecer herramientas que se adaptan a los gustos y estilos en evolución de los usuarios, Splash Music ha hecho que la producción musical sea accesible y relevante. Sin embargo, la creación de esta tecnología requirió superar varios desafíos clave, como la complejidad y escala del modelo, la rápida evolución del sector y la necesidad de escalar la infraestructura. Antes de adoptar AWS, la compañía dependía de clusters de GPU administrados externamente, lo que generaba latencias impredecibles y complicaciones de gestión.

Para superar estos obstáculos, Splash Music desarrolló el modelo HummingLM, un modelo generativo de múltiples modalidades diseñado para interpretar y generar música. Este modelo aprovecha la codificación de audio Descript-Audio-Codec que produce representaciones de audio comprimidas. La arquitectura de HummingLM se basa en un modelo de lenguaje de gran tamaño acoplado con un codificador especializado, permitiendo a los usuarios transformar melodías entonadas en actuaciones instrumentales de alta calidad.

La colaboración con AWS y el uso de instancias EC2 de AWS Trainium permitió a Splash Music acelerar el desarrollo de su modelo. La automatización y escalabilidad de SageMaker HyperPod han facilitado la provisión de clústeres en gran escala, mejorando la eficiencia operativa y reduciendo los costos de entrenamiento en más del 54%. Esta optimización ha permitido una mayor iteración de modelos, con una reducción en los tiempos de entrenamiento de casi un 50%.

HummingLM no solo ha demostrado ser un avance en la fidelidad del sonido, sino que también ofrece una notable capacidad para generalizar a nuevos presets de instrumentos sin necesidad de entrenamiento adicional. La compañía planea expandir su dataset de entrenamiento hasta diez veces, explorar la generación multimodal de audio y vídeo, y continuar su colaboración con el Centro de Innovación de AWS para futuras investigaciones y desarrollo.

Splash Music está redefiniendo cómo los creadores materializan sus ideas musicales, haciendo posible que cualquiera genere pistas frescas y personalizadas que resuenen con millones de oyentes. Con una sólida infraestructura y un enfoque en la innovación, la compañía tiene un futuro prometedor en la música generativa.
vía: AWS machine learning blog