Google ha lanzado un nuevo modelo capaz de generar música a partir de una descripción textual. El resultado es impresionante.
En realidad, la idea de aplicar la inteligencia artificial generativa a la música no es un concepto nuevo. Ha habido varios intentos en los últimos años, incluyendo Riffusion, Dance Diffusion, Museformer de Microsoft y Jukebox de OpenAI. Google en sí mismo había lanzado previamente un modelo llamado AudioML. ¿Por qué sería diferente este modelo?
whoa, this is bigger than ChatGPT to me.
— Keunwoo Choi (@keunwoochoi) January 27, 2023
google almost solved music generation, i’d say. https://t.co/s9PQaJ5R6A
Mientras tanto, los modelos anteriores mostraron problemas técnicos y de calidad obvios. El resultado fue soso, las canciones no eran muy complejas, a menudo repetitivas, y aún no eran de alta fidelidad.
Generar música no es fácil, como han demostrado numerosos intentos. Los autores a menudo utilizan MIDIs, pero generar música de alta fidelidad es otra cuestión. La música también tiene una estructura compleja, hay que considerar melodías y armonías, y hay patrones que se repiten a lo largo del tiempo y de una distancia larga.
Como señalan los autores del artículo, es más fácil generar texto a imagen, y se intentó generar texto a música para «escenas acústicas simples, que consisten en pocos eventos acústicos durante un período de segundos».
Aquí hablamos de empezar con una sola descripción textual y generar un audio complejo con una estructura a largo plazo. ¿Cómo lo lograron?
Mientras tanto, como explican, se utilizó AudioLM como punto de partida. El modelo anterior era capaz de tomar una melodía y continuarla de manera coherente. Sin embargo, hay varias limitaciones técnicas que superar:
La primera limitación principal de dicho modelo es la «escasez de datos de audio-texto emparejados». De hecho, el entrenamiento de texto a imagen se facilitó por el hecho de que hay tantas imágenes, y se pueden utilizar descripciones alternativas como subtítulos. No es fácil describir en pocas palabras las características salientes de la música, como las escenas acústicas o el timbre de una melodía. Además, la música se desarrolla en una dimensión temporal, por lo que hay un riesgo de un vínculo débil entre la descripción y la música (en contraste, una imagen es estática).


MusicLM: estructura, entrenamiento, resultados y limitaciones
El primer componente de este modelo es MuLan (también la parte central). Este modelo se utiliza para construir una incrustación conjunta de música y texto y consta de dos torres de incrustación (una para la entrada textual y otra para la entrada musical). Las dos torres son BERT preentrenado y una variante de ResNeT-50 para audio.
MuLan fue entrenado en pares de clips de música y sus correspondientes anotaciones textuales.


Como vimos en la imagen, los autores mencionan que hay otros dos componentes. Como explican los autores:
Utilizamos las representaciones de audio auto supervisadas de SoundStream como tokens acústicos para permitir la síntesis de alta fidelidad, y w2vBERT, como tokens semánticos para facilitar la generación coherente a largo plazo. Para representar el acondicionamiento, confiamos en la incrustación de música MuLan durante el entrenamiento y la incrustación de texto MuLan en el momento de la inferencia.
Por complejo que parezca este sistema, permite varias ventajas: puede escalar rápidamente y el uso de pérdida contrastiva para el entrenamiento de incrustaciones aumenta la robustez. Además, tener modelos preentrenados por separado permite un mejor acondicionamiento de la música con la entrada textual.
Durante el entrenamiento, el modelo aprende a convertir la asignación de tokens producida por MuLan en tokens semánticos (w2w-BERT). Luego, el token acústico se acondiciona tanto en los tokens de audio MuLan como en los tokens semánticos (SoundStream).


Durante la inferencia, el proceso consiste en proporcionar una descripción textual a MuLan que lo convierte en una señal condicional, que a su vez se convierte en un token de audio por w2w-BERT y luego se transforma en formas de onda por el decodificador de SoundStream.


Lo que también hace que MusicLM sea tan capaz es que ha sido entrenado en 5 millones de clips de audio (un total de 280,000 horas de audio). Además, los autores han creado un conjunto de datos de 5,5 mil clips de música con subtítulos escritos por músicos profesionales (este conjunto de datos se ha publicado aquí). Cada uno de estos subtítulos describe la música con cuatro frases y va seguido de una lista de aspectos musicales (género, estado de ánimo, ritmo, etc.)
Como muestran los resultados, MusicML resulta superior a modelos anteriores (Mubert y Riffusion), tanto en términos de calidad de audio como de fidelidad textual. Además, también en términos de calidad de escucha. De hecho, se mostraron clips a los oyentes y se les pidió que eligieran cuál representaba mejor la descripción textual (una victoria significa que el oyente prefirió el modelo en una comparación lado a lado).
https://google-research.github.io/seanet/musiclm/examples/
Al escuchar los resultados, es difícil no estar impresionado, considerando que no hay músicos involucrados. Después de todo, el modelo logra capturar matices musicales como riffs e instrumentales.
Además, el modelo no se limita a descripciones textuales, sino que puede tomar otros audios como entrada y continuarlos («que se proporcionan en forma de zumbidos, cantos, silbidos o tocando un instrumento»).
Los autores también describen un enfoque llamado «modo historia», que consiste en generar largas secuencias de audio donde la descripción textual cambia con el tiempo. El modelo genera secuencias musicales con «transiciones suaves que son consistentes en tempo y semánticamente plausibles mientras cambian el contexto musical según la descripción del texto». Estas descripciones también pueden contener frases como «tiempo para meditar» o «tiempo para correr», creando una narrativa en la que se asocia música apropiada.
En resumen, el modelo no se limita a la descripción de un instrumento o género, sino que puede estar condicionado por descripciones inspiradas en actividades, épocas, lugares o estados de ánimo. Por lo tanto, MusicLM también podría usarse para bandas sonoras de películas, aplicaciones de entrenamiento, etc.
En este enlace, también puede leer los subtítulos y escuchar el resultado del modelo.
Aunque el modelo es impresionante, no es perfecto, y algunos de los clips de audio tienen una calidad distorsionada (pero esto podría mejorarse en el futuro con modificaciones en el entrenamiento). Además, el modelo también puede generar coros y personas cantando, pero a menudo las letras no están en inglés sino en una especie de galimatías, y la voz suena más como una amalgama de cantantes que como una voz humana coherente. Por lo tanto, como señalan los autores:
El trabajo futuro puede centrarse en la generación de letras, junto con la mejora de la condición de texto y la calidad vocal. Otro aspecto es la modelación de la estructura de las canciones de alto nivel, como introducción, verso y coro. Modelar la música a una tasa de muestra más alta es un objetivo adicional.
Google decidió no distribuir el modelo: «hay varios riesgos asociados con nuestro modelo y el caso de uso que aborda». Como señalan los autores, el modelo refleja los sesgos que están presentes dentro de los datos de entrenamiento, lo que plantea problemas para generar música para culturas que están subrepresentadas en el conjunto de datos. También señalan que el modelo plantea cuestiones éticas sobre la apropiación cultural.