ByteDance представила семейство нейросетей Goku для генерации видео

Обсудить

Реклама. АО «ТаймВэб». erid: 2W5zFJt1qBn

Китайская компания ByteDance выпустила семейство нейросетей Goku, с помощью которых можно генерировать разные видео. Модели машинного обучения были разработаны совместно с исследователями Гонконгского университета.

Goku генерирует видео в портретной и альбомной ориентации в нескольких режимах, в том числе Text to Video, Image to Video и Text to Image. Нейросеть построена на архитектуре Rectified flow transformers, которая благодаря коррекции потока данных между токенами выдает более реалистичные и сложные результаты.

Пример сгенерированного видео Goku

Пример сгенерированного видео Goku. Источник: saiyan-world.github.io (здесь и далее)

Помимо базовой модели, в данном семействе предусмотрена нейросеть Goku+, с помощью которой можно создавать рекламные видео длительностью до 20 секунд. ИИ-модель может сгенерировать реалистичных людей в кадре, которые разговаривают и при этом активно жестикулируют. Кроме людей, в кадр можно добавить и рекламный продукт, приложив его фотографию в качестве примера, причем как с участием человека, так и без него.

Пример созданного видео в Goku+

В бенчмарке VBench модель Goku набрала 84,85 балла и в рейтинге Text to Video обошла нейросети Pika-1.0, OpenSora V1.2, Kling и Mira. В GenEval и DPG-Bench решение от ByteDance набрало 0,76 и 83,65 балла соответственно. Примеры сгенерированных видео от новой нейросети представлены на сайте проекта.

Пример видео Goku