Китайская компания ByteDance выпустила семейство нейросетей Goku, с помощью которых можно генерировать разные видео. Модели машинного обучения были разработаны совместно с исследователями Гонконгского университета.
Goku генерирует видео в портретной и альбомной ориентации в нескольких режимах, в том числе Text to Video, Image to Video и Text to Image. Нейросеть построена на архитектуре Rectified flow transformers, которая благодаря коррекции потока данных между токенами выдает более реалистичные и сложные результаты.
Пример сгенерированного видео Goku. Источник: saiyan-world.github.io (здесь и далее)
Помимо базовой модели, в данном семействе предусмотрена нейросеть Goku+, с помощью которой можно создавать рекламные видео длительностью до 20 секунд. ИИ-модель может сгенерировать реалистичных людей в кадре, которые разговаривают и при этом активно жестикулируют. Кроме людей, в кадр можно добавить и рекламный продукт, приложив его фотографию в качестве примера, причем как с участием человека, так и без него.
В бенчмарке VBench модель Goku набрала 84,85 балла и в рейтинге Text to Video обошла нейросети Pika-1.0, OpenSora V1.2, Kling и Mira. В GenEval и DPG-Bench решение от ByteDance набрало 0,76 и 83,65 балла соответственно. Примеры сгенерированных видео от новой нейросети представлены на сайте проекта.
Напомним, то недавно эта же компания выпустила OmniHuman-1 – нейросеть, создающая видеоролики по фото.
Комментарии