Компания NVIDIA разработала уникальные ИИ-модели, позволяющие генерировать реалистичную человеческую речь для виртуальных ассистентов, игровых персонажей и иных вариантов использования.
Специалисты NVIDIA обратили внимание на то, что несмотря на колоссальную эволюцию искусственной речи, она все еще значительно отстает от реальной, потому что у людей меняется темп речи, ее интонация и тембр. Искусственному интеллекту симулировать эти особенности речи гораздо сложнее.
На конференции Interspeech 2021, которая продлится до 3 сентября, NVIDIA представила новые инструменты и технологии, позволяющие заметно сократить разницу между реальной речью и синтезированной. Новая разработка разрешит скопировать все богатство человеческого общения, при этом не создав аудиоартефактов, мешающих его восприятию.
По словам представителей NVIDIA, эта технология может оказаться полезной для разработчиков автоматизированных голосовых систем: виртуальных сотрудников техподдержки, голосовых ассистентов, игровых персонажей, цифровых аватаров в виртуальной реальности и т.п. Кроме того, новая разработка может быть использована для помощи людям с функциональными нарушениями голоса.
Услышать пример работы такой технологии можно в проморолике NVIDIA, опубликованном на официальном YouTube-канале компании.
Узнать подробнее о том, как устроен новый ИИ c технической точки зрения, можно на сайте его создателей.
Комментарии