Stability AI представила в открытый доступ модель Stable Audio, с помощью которой можно генерировать музыку, звуковые эффекты и окружение. Модель и веса опубликовали на платформе Hugging Face.
Stable Audio представляется как открытая модель, позволяющая генерировать 47-секундные музыкальные семплы и звуковые эффекты. С ее помощью можно создать барабанные биты, гитарные рифы, партию на фортепиано, даже пение соловья и шум дождя. Чтобы сгенерировать отрывок аудио, необходимо ввести и отправить текстовый запрос.
Отличительной особенностью этой модели является возможность создания музыки на основе собственных данных, об этом сообщается в блоге компании. К примеру, барабанщик сможет загрузить записи своих битов и уже на их основе создавать новые.
Замечено, что у этой модели есть две версии – открытая и коммерческая закрытая. В последней доступна генерация трехминутных треков с проработанной структурой. Также поддерживается режим Audio-to-Audio, в котором в качестве запроса можно передать уже готовый трек.
Обучение открытой модели Stable Audio Open проводилось на основе данных сервисов FreeSound и Free Music Archive. Это решение позволило соблюсти все требования к авторским правам. При этом для доступа к нейросети в любом случае потребуется ознакомиться с лицензионным соглашением.
Изображение на обложке: Stability AI
Комментарии