Как убрать вокал из песни в Audacity

Вопрос о создании минусовки или инструментальной версии трека – один из самых частых среди пользователей Audacity. Начиная с версии 3.5 встроенный Nyquist-плагин «Вокал-редукция и изоляция» убран из стандартного меню и в актуальных версиях программы недоступен, однако задачу решают два других инструмента: AI-плагин OpenVINO Music Separation с разделением на независимые стемы и ручной метод через фазовую инверсию канала. Ручной метод работает только со стереофайлами, в которых вокал расположен по центру панорамы – если файл записан в моно, единственным вариантом остается OpenVINO.

Способ 1: OpenVINO Music Separation

OpenVINO Music Separation – AI-плагин на базе нейросетевой модели Demucs v4 от Meta, который разделяет аудио на независимые стемы: в режиме 2-Stem получаются инструментальная дорожка и вокал, в режиме 4-Stem – отдельно барабаны, бас, прочие инструменты и вокал. В отличие от метода фазовой инверсии, алгоритм анализирует дорожку целиком и не оставляет фазовых артефактов на частотах, где вокал пересекается с инструментами, что дает заметно более чистый результат на большинстве коммерческих записей.

Все вычисления выполняются локально на компьютере – интернет-соединение для обработки не требуется. Плагин входит в состав пакета OpenVINO AI Effects, который устанавливается отдельно и бесплатно через менеджер плагинов MuseHub или с официальной страницы Intel на GitHub; для работы необходима версия Audacity 3.7.4 или новее.

Импортируйте аудиофайл через «Файл» – «Импорт» – «Аудио» или перетащите его прямо в окно программы.
Выделите всю дорожку через Ctrl + A.
Откройте «Эффекты» – «OpenVINO AI Effects» – «OpenVINO Music Separation».
В открывшемся окне в поле «Separation Mode» выберите значение «(2 Stem) Instrumental, Vocals» – программа разделит аудио на инструментальную часть и вокал. Если нужна более детальная разбивка, выберите вариант «(4 Stem) Drums, Bass, Other Instruments, Vocals» – результатом станут четыре отдельные дорожки.
В поле «OpenVINO Inference Device» оставьте значение «CPU» – это стандартный режим, доступный на любом компьютере.
Нажмите «Применить». При первом запуске после установки плагин компилирует AI-модель под конкретное устройство – это занимает 10-30 секунд до начала самой обработки; при последующих запусках скомпилированная модель загружается из кеша значительно быстрее. Общее время обработки зависит от длины трека и составляет от одной до нескольких минут.
После завершения в проекте появятся две (или четыре) новые дорожки. Закройте исходную дорожку, нажав «×» в левом верхнем углу ее панели управления, затем прослушайте инструментальный стем.
Экспортируйте результат через «Файл» – «Экспорт аудио», выбрав нужный формат.

При наличии совместимого GPU Intel или NPU можно выбрать его в поле «OpenVINO Inference Device» – скорость обработки заметно вырастет, а скомпилированная модель будет закеширована отдельно для каждого устройства. Если несколько устройств вызывают путаницу, кнопка «Device Details...» рядом с полем показывает их точные идентификаторы и характеристики. Качество разделения при смене устройства не изменяется – оно определяется только выбранной моделью.

Способ 2: Ручной метод через инверсию канала

Ручной метод основан на принципе фазовой компенсации: когда один стереоканал инвертируется и накладывается на другой, звук, одинаковый в обоих каналах – то есть расположенный строго по центру панорамы, – взаимно уничтожается. Вокал в большинстве коммерческих записей сводится по центру, поэтому после инверсии он пропадает, а инструменты, панорамированные влево и вправо, остаются. Метод требует стереофайл – на монодорожке фазовая компенсация не работает, поскольку оба канала идентичны. Дополнительные плагины для него не нужны, вся работа выполняется встроенными инструментами Audacity.

Импортируйте стереофайл через «Файл» – «Импорт» – «Аудио».
Кликните по названию дорожки левой кнопкой мыши и в контекстном меню выберите «Разделить стереотрек в моно» – дорожка разделится на две независимые монодорожки, соответствующие левому и правому каналу.
Кликните по второй дорожке, чтобы выделить только ее.
Откройте «Эффекты» – «Специальные» – «Инвертирование» – эффект применяется мгновенно, без открытия дополнительных диалоговых окон.
Нажмите Ctrl + A для выделения обеих дорожек и нажмите «Play» для предварительного прослушивания – вокал должен заметно снизиться или исчезнуть полностью.
Экспортируйте результат через «Файл» – «Экспорт аудио»: при экспорте Audacity автоматически сведет обе дорожки в один файл.

Если вокал убран не полностью, причина, как правило, в реверберации или стереоширении голоса – такие записи метод фазовой инверсии обрабатывает лишь частично.

Стоит также учитывать, что результатом будет двойная монодорожка, а не полноценное стерео: правый и левый каналы после инверсии и сведения содержат одинаковый сигнал. Для получения финального стерео-файла это не имеет практического значения, но в некоторых случаях может слегка сузить пространственность звучания инструментов.

Важные нюансы

Перед обработкой необходимо учитывать несколько ограничений, которые влияют на выбор метода и ожидаемый результат. Их понимание позволит реалистично оценить итог и не тратить время на повторные попытки там, где улучшение уже невозможно.

Ручной метод не работает с моно-файлами. OpenVINO Music Separation обрабатывает как стерео, так и моно – это единственный вариант, если исходная запись одноканальная.
Реверберация и бэк-вокал снижают качество обоих методов. Фазовая инверсия убирает только то, что строго по центру, а реверберация распространяется по всему стереополю; OpenVINO справляется с этим лучше, но хвосты реверберации могут сохраняться в инструментальном стеме.
Ручной метод также снижает центральные инструменты. Фазовая инверсия убирает все, что расположено по центру панорамы – не только вокал, но и бас-гитару или клавишные, если они сведены без панорамирования.
Плагин «Вокал-редукция и изоляция» недоступен в Audacity 3.5 и новее. Он убран из стандартной поставки и не появляется в плагин-менеджере – описанные выше методы являются полноценной заменой для актуальных версий программы.

Чем ровнее сведена исходная запись и чем меньше обработки применено к вокалу, тем чище окажется результат. Профессионально сведенные треки с четкой центральной панорамой вокала и минимальной реверберацией дают наилучший результат обоими методами.

Заключение

OpenVINO Music Separation дает более качественный результат на большинстве треков, поскольку нейросетевая модель анализирует содержимое дорожки целиком, разделяет стемы без фазовых артефактов и при необходимости позволяет получить четыре отдельных компонента записи. Ручной метод через инверсию канала работает без дополнительных плагинов и справляется с простыми записями, где вокал сведен строго по центру без реверберации и бэк-партий.

Ни один из описанных методов не гарантирует идеального удаления – профессиональные записи с многослойной обработкой и сложной панорамой всегда оставляют следы голоса в результирующем файле. Если качества разделения недостаточно, стоит обратиться к специализированным онлайн-сервисам разделения стемов, которые используют более мощные нейросетевые модели и справляются с материалом, где десктопные инструменты уже не помогают.

Читайте также в Комьюнити: