Компания NVIDIA представила Fugatto – генеративную модель ИИ, способную создавать и трансформировать звуки, музыку и речь. Fugatto позиционируется как «универсальный инструмент» для профессионалов из мира музыки, кино, видеоигр и рекламы.
Fugatto генерирует звуки на основе текстовых подсказок – ИИ может «заставить» трубу лаять, а фортепиано – петь. Инструмент позволяет изменять тон, акцент и эмоциональную окраску речи, при его помощи можно создавать персонализированные звуковые эффекты.
Fugatto умеет объединять несколько инструкций для сложных задач. Пользователь может попросить произнести текст с итальянским акцентом и веселой интонацией или создать динамическую аудиосцену, где гроза постепенно сменяется звуками утреннего города.
Модель разработана международной командой NVIDIA и включает более 2,5 миллиардов параметров. Ее обучение проходило на суперкомпьютерах с использованием новейших графических процессоров.
Вице-президент NVIDIA Рафаэль Валле отметил, что «модель может изменить музыку так же, как синтезаторы изменили ее несколько десятилетий назад». В компании, однако, подчеркивают, что пока Fugatto не будет доступна для массового пользователя. Причина – в сложности соблюдения авторских прав и потенциальном злоупотреблении технологией.
Изображение на обложке: NVIDIA
Комментарии