Команда Google анонсировала нового ИИ-помощника VLOGGER, который генерирует анимированные видео по фото человека. Пока это исследовательский проект, сервис недоступен для использования.
Загрузив картинку и аудиофайл, пользователь получает реалистичный ролик говорящего человека – модель способна осуществлять не только синхронизацию губ, но и добавлять жестикуляцию рук, закрывать и открывать герою видео глаза. Кроме того, VLOGGER может изменить выражение лица в уже отснятом материале или отредактировать движение губ при переводе видео на другой язык.
Изображение: Google (здесь и далее)
По мнению создателей, технология будет полезна в творчестве, при онлайн-общении, в сфере образования и при создании виртуальных ассистентов. Один из возможных вариантов применения – перевод видео. К примеру, можно взять существующее видео на английском языке и отредактировать движения губ и лица, чтобы они соответствовали новому переведенному аудио на испанском языке.
Чтобы VLOGGER создавал визуально-достоверные видео, не нужно обучать нейросеть на базе роликов с изображением человека – достаточно загрузить всего одну качественную фотографию и аудиодорожку с речью, которую будет произносить аватар.
Пока модель работает с ограничениями, например, может создавать только короткие видеоролики, не все движения человека в кадре получаются естественными, а фон остается статичен.
Изображение на обложке: Unsplash
Комментарии