Корпорация Meta* предоставила доступ к нейросети MusicGen, способной создавать музыкальные композиции на основе текстовых запросов. Принимая во внимание нашу проверку, мы раскроем принцип работы этой инновационной технологии.
MusicGen для генерации музыки
MusicGen — это часть библиотеки Audiocraft, которая применяется для обработки и синтеза аудио с использованием глубоко обученных нейронных сетей. Помимо MusicGen, отвечающей за генерацию музыки, в рамках Audiocraft также существует AudioGen — нейросеть для генерации звуков на основе текстовых запросов. Кроме того, в состав библиотеки входят нейросетевой аудиокодек EnCodec и соответствующий декодер Multi Band Diffusion.
Библиотека Audiocraft с этими моделями доступна в открытом доступе и может быть загружена из репозитория на платформе GitHub. Там же предоставлена инструкция по установке данной модели на локальном компьютере. Особенно примечательно, что Meta* предоставляет возможность дополнительного обучения модели и предоставляет соответствующее руководство. Это означает, что модель можно дообучить, например, на песнях группы «Nickelback» и создать аранжировки современных поп-хитов. Однако стоит осторожно подходить к этому процессу, чтобы не нарушить авторские права.
Мы провели тестирование новой модели от Meta* и представляем ее возможности.
Процесс создания музыки
Существует несколько способов воспользоваться новой нейросетью для генерации музыки:
- Платформа Hugging Face. Meta* предоставила бесплатный доступ к своему пространству на платформе Hugging Face, где можно оценить функциональность этой технологии. Это пространство использует графический ускоритель NVIDIA A10G, что позволяет достаточно быстро генерировать музыкальные треки. Согласно данным Meta*, создание 2-минутного трека занимает около десяти минут.
- Google Colab. Энтузиасты уже создали виртуальное пространство на платформе Google Colab, доступное для всех желающих. Достаточно выполнить определенный код, и через несколько минут вы получите ссылку на пространство Gradio. Здесь можно взаимодействовать с интерфейсом нейросети, аналогичным тому, что представлен на платформе Hugging Face.
- Локальный компьютер. Вы также имеете возможность запустить нейросеть на своем компьютере, предоставив наличие Python и фреймворка PyTorch. На указанной ссылке представлен код для установки и настройки нейросети.
Исходя из нашего анализа, нейросеть MusicGen от Meta* демонстрирует впечатляющие возможности в области генерации музыки на основе текстовых данных.
Мы протестировали Hugging Face, загрузив как референс новинку лета Peggy Gou — It goes like (Nanana), а также дали описание желаемой мелодии — танцевальная музыка для open air. И вот, что из этого вышло:
В Google Colab после пары минут загрузки нам пришла ссылка на Gradio-пространство. Было сказано, что она действует 72 часа.
Мы повторили все то же самое:
Результат:
Выводы
Подытожив, можно сказать, что результат захватывающий и, в общем, удовлетворительный. Пусть даже нейросеть создает только мелодию, без слов. Главное преимущество заключается в том, что это бесплатное и мощное программное средство для созидания мелодий, с перспективой дальнейшего значительного улучшения и повышения скорости работы.
*запрещенная в России организация, признана экстремистской