Música generada desde un modelo de inteligencia artificial con Stable Diffusion



Hemos visto muchos ejemplos donde modelos de inteligencia artificial, crean imágenes a partir de frases o palabras claves que normalmente se denomina prompts. Esta aplicación de la inteligencia artificial hace parte de los modelos text2image y una muestra de esto son modelos como DALL-E o Stable Diffision.

Puedes experimentar con varios modelos de tipo text2image en la página de replicate.com

En este mundo de modelos generadores de imágenes hay otros que son del tipo image2image y son aquellos a los que se les proporciona una imagen a procesar y luego se le pasan otras para que por ejemplo aplique los estilos de las imágenes de referencia a la imagen proporcionada. 

Ahora ¿qué tiene que ver la generacíón de imágenes con la música?

Todo inicia con algo llamado "Espectrograma" el cual es una imagen que representa un sonido, graficando el espectro de la señal con respecto a las ventanas de tiempo y se ve algo así.

Tomado de Wikipedia
Ahora, imagínate que conviertes una gran colección de canciones, ritmos y sonidos en espectrogramas y los usan para entrenar un modelo text2image; en este caso entregándole un texto con ritmos o características de canciones en lugar de objetos y estilos de dibujo, el modelo genera un espectrograma que represente las características de las canciones solicitadas.

Esto es lo que se hace con Riffusion; este modelo usa Stable Diffusion para que con solo darle algun prompt con ritmos y características musicales genere un espectrograma y lo vuelva de nuevo a música que puedes escuchar.

El prompt "heavy rock with a techno bass" generó el siguiente espectrograma que puedes escuchar aquí  


Te invito a probar Riffusion, que incluso es de código abierto por si te animas a mejorarlo.

La verdad esta es una aplicación de la inteligencia artificial que es bastante interesante y si bien no se escucha tan profesional como una composición hecha e interpretada por humanos es bastante comprensible y asombrosa. Ahora, la clásica reflexión de si esto en un futuro reemplazará a un compositor, creo que si bien la música puede ser llevada a un modelo matemático, es el componente no técnico, la parte emocional, y el propósito de un artista lo que hará la diferencia. Como aplicaciones quizás ahora sirva para dar ideas, ayudar a superar un bloqueo creativo o algo así, pero de aquí a componer una pieza completa creo que puede faltar un tiempo.

Usos comerciales

Hay ya varios servicios que usan inteligencia artificial para la música, uno de ellos que puedes mirar y probar gratis es beatoven.ai el cual, si bien no tengo conocimiento si usa una técnica similar a la presentada por Riffusion, ofrece la creación de pistas musicales, indicándole un estilo, un estado de ánimo. Los resultados son bastante interesantes.

Publicar un comentario

0 Comentarios