Разработчики Google Research создали нейросеть MusicLM, генерирующую музыку в любом жанре по текстовому описанию. Модель обучали на 280 тысячах часов записи, информация о ней и примеры работ представлены на странице MusicLM.
Нейросеть может сгенерировать композицию в 24 кГц и в любом жанре, улавливая даже незначительные нюансы в аннотации. Это хорошо показано на примерах, где по запросам модель должна была создать «основой саундтрек аркадной игры» с «запоминающимся гитарным рифом», или же «слияние реггетона и электронной танцевальной музыки с космическим звучанием». В качестве задания даже можно представить описание картины, напев или же насвистывание мелодии.
Пример текстового описания картины, которое легло в основу аудио. Изображение: MusicLM
MusicLM также может объединить несколько аннотаций и сгенерировать по ним «музыкальную историю», где один фрагмент плавно перетекает в другой. Также нейросеть может учитывать уровень музыканта: как пишет Rozetked, по запросам «начинающий пианист» и «пианист-виртуоз» результаты выходят совершенно разные.
На данном этапе модель слабо справляется с генерацией вокала – синтезированная речь пока у нее выходит неразборчивой. Также ряд композиций звучат довольно странно, у них наблюдается заметно искаженное качество. Вдобавок, компания Google пока не готова представить разработку в общий доступ в связи с рисками, связанными с авторскими правами и возможными исками по ним.
Комментарии
Нейросеть - это баловство для широкого круга пользователей. Через 40 лет получится что-то серьезное, но это нужно уже сейчас.
А сейчас картина такая - все есть, но пользоваться не хочется, или нельзя. А то "авторские права", "вдруг" или "что-то пошло не так."