Китайская компания ByteDance представила OmniHuman-1 – новую платформу для создания видеороликов по фото. Система превращает неподвижные изображения в видео, при этом добавляет объектам движение и речь.
Для обучения нейросети использовались более 18 700 часов видеоданных, на которых запечатлены люди в различных ситуациях. ИИ анализирует текст, аудио и движения тела, что позволяет ему создавать видео с высокой точностью. При этом результаты показывают естественные движения рта и жесты, которые соответствуют устному содержанию.
OmniHuman-1 может генерировать видео в полный рост, что отличает ее от предыдущих моделей, способных анимировать только лица или верхнюю часть тела. К тому же, она отлично справляется с анимированием персонажей мультфильмов. На данный момент при генерации добавляются максимально естественные движения с учетом мимики, жестов и синхронизацией с речи.
На сайте проекта для ознакомления представлены примеры работ OmniHuman-1 длительностью до 25 секунд. При этом, демонстрация подчеркивает не только возможности системы, но и потенциальные риски, такие как возможность использования фотографий реальных людей для создания контента в обманных целях.
Изображение на обложке: скрин сгенерированного OmniHuman-1 видео
Комментарии