Знакомство с нейросетью MusicGen: искусство создания музыки с ИИ

Корпорация Meta* предоставила доступ к нейросети MusicGen, способной создавать музыкальные композиции на основе текстовых запросов. Принимая во внимание нашу проверку, мы раскроем принцип работы этой инновационной технологии.

Знакомство с нейросетью MusicGen: искусство создания музыки с ИИ

MusicGen для генерации музыки

MusicGen — это часть библиотеки Audiocraft, которая применяется для обработки и синтеза аудио с использованием глубоко обученных нейронных сетей. Помимо MusicGen, отвечающей за генерацию музыки, в рамках Audiocraft также существует AudioGen — нейросеть для генерации звуков на основе текстовых запросов. Кроме того, в состав библиотеки входят нейросетевой аудиокодек EnCodec и соответствующий декодер Multi Band Diffusion.

Знакомство с нейросетью MusicGen: искусство создания музыки с ИИ

Библиотека Audiocraft с этими моделями доступна в открытом доступе и может быть загружена из репозитория на платформе GitHub . Там же предоставлена инструкция по установке данной модели на локальном компьютере. Особенно примечательно, что Meta* предоставляет возможность дополнительного обучения модели и предоставляет соответствующее руководство. Это означает, что модель можно дообучить, например, на песнях группы «Nickelback» и создать аранжировки современных поп-хитов. Однако стоит осторожно подходить к этому процессу, чтобы не нарушить авторские права.

Мы провели тестирование новой модели от Meta* и представляем ее возможности.

Процесс создания музыки

Существует несколько способов воспользоваться новой нейросетью для генерации музыки:

  • Платформа Hugging Face. Meta* предоставила бесплатный доступ к своему пространству на платформе Hugging Face, где можно оценить функциональность этой технологии. Это пространство использует графический ускоритель NVIDIA A10G, что позволяет достаточно быстро генерировать музыкальные треки. Согласно данным Meta*, создание 2-минутного трека занимает около десяти минут.
  • Google Colab. Энтузиасты уже создали виртуальное пространство на платформе Google Colab, доступное для всех желающих. Достаточно выполнить определенный код, и через несколько минут вы получите ссылку на пространство Gradio. Здесь можно взаимодействовать с интерфейсом нейросети, аналогичным тому, что представлен на платформе Hugging Face.
  • Локальный компьютер. Вы также имеете возможность запустить нейросеть на своем компьютере, предоставив наличие Python и фреймворка PyTorch. На указанной ссылке представлен код для установки и настройки нейросети.

Исходя из нашего анализа, нейросеть MusicGen от Meta* демонстрирует впечатляющие возможности в области генерации музыки на основе текстовых данных.

Мы протестировали Hugging Face, загрузив как референс новинку лета Peggy Gou — It goes like (Nanana), а также дали описание желаемой мелодии — танцевальная музыка для open air. И вот, что из этого вышло:

В Google Colab после пары минут загрузки нам пришла ссылка на Gradio-пространство. Было сказано, что она действует 72 часа.

Знакомство с нейросетью MusicGen: искусство создания музыки с ИИ

Мы повторили все то же самое:

Знакомство с нейросетью MusicGen: искусство создания музыки с ИИ

Результат:

Выводы

Подытожив, можно сказать, что результат захватывающий и, в общем, удовлетворительный. Пусть даже нейросеть создает только мелодию, без слов. Главное преимущество заключается в том, что это бесплатное и мощное программное средство для созидания мелодий, с перспективой дальнейшего значительного улучшения и повышения скорости работы.

*запрещенная в России организация, признана экстремистской

Добавить комментарий