Menu
in

MusicGen: Cómo generar música con inteligencia artificial y texto

Uno de los modelos ya está disponible en línea

Cómo generar música con inteligencia artificial

La gente de Meta sigue compartiendo sus desarrollos de inteligencia artificial. A mediados de abril exploramos Animated Drawings para animar dibujos, su chatbot Llama 2 apareció en los últimos días de julio, y ahora es el turno de AudioCraft. Tal y como lo sugiere su nombre, AudioCraft se concentra en la generación de audio con inteligencia artificial, y consiste de tres modelos: AudioGen, MusicGen, y EnCodec. El código ya está disponible para todos, pero si quieres probar MusicGen en este instante, puedes hacerlo sin instalar nada.


Riffusion, MusicLM, Soundraw, SongR. La idea de generar música con inteligencia artificial está ganando tracción en la Web. Desde un punto de vista técnico, esas plataformas aún se encuentran lejos si las comparamos con la generación de imágenes, pero el tiempo está definitivamente a su favor, y con cada nuevo modelo, los parámetros de calidad seguirán mejorando.

Así llegamos al proyecto AudioCraft de Meta. Esta biblioteca fue especialmente diseñada para realizar investigaciones de aprendizaje profundo en generación de audio, y se divide en tres modelos avanzados: AudioGen para la creación de efectos de sonido, MusicGen para generar música, y EnCodec, un «códec de audio neural» de alta fidelidad. El perfil de AudioCraft en GitHub contiene todo el código y las instrucciones de instalación, pero puedes probar a MusicGen en este momento gracias a la presencia de Meta en HuggingFace.


Cómo generar música con prompts usando AudioCraft y MusicGen

La espera puede ser más larga de lo normal, dependiendo de la carga en el server, y el momento del día

Esta versión de MusicGen posee dos herramientas: Una caja para ingresar nuestro prompt, y otra que nos permite cargar una melodía o muestra de micrófono como referencia. Hacemos clic en Generate, y eso nos llevará a la cola de espera. En promedio, HuggingFace reporta una demora de 600-900 segundos, pero en algunas pruebas, el modelo tardó la mitad de ese tiempo (por supuesto, esto dependerá de la carga en los servidores). El resultado final es una muestra de quince segundos, en formato MP4.


https://www.neoteo.com/wp-content/uploads/2023/08/bard.mp4

«a lively bard playing the lute on a tavern»

https://www.neoteo.com/wp-content/uploads/2023/08/piano.mp4

«an ominous, foreboding church piano melody, anticipating the appearance of an enemy in a videogame»

https://www.neoteo.com/wp-content/uploads/2023/08/scifi.mp4

«soundtrack of a ecstatic moment in a space battle of a sci fi movie»


¿Qué tan bien funciona? Bueno… no es terrible. El modelo no ofrece ningún control de seed o intensidad, pero parece seguir con cierta precisión a nuestro prompt. Obviamente, la descripción se escribe en inglés, y cualquier modificación mínima puede generar melodías muy diferentes. El límite de quince segundos es absoluto aquí, y tampoco debemos esperar un «bucle» para utilizarlo de fondo en algún proyecto, sin embargo, creo que MusicGen tiene el potencial para convertirse en una herramienta mucho más robusta.


Accede a MusicGen: Haz clic aquí

AudioCraft en Facebook: Haz clic aquí


Escrito por Lisandro Pardo

Leave a Reply