Команда Google продемонстрировала модель пространственно-временной диффузии Lumiere на основе искусственного интеллекта. С ее помощью можно создавать реалистичные видео по текстовому описанию продолжительностью до пяти секунд.
Это не первый генератор видео на основе ИИ, ведь даже в Google ранее создавали модель Imagen Video. Она создает ролики разрешением 1280 на 768 точек с частотой 24 кадра в секунду, но ее творения куда более скромные по возможностям. Об этой нейросети мы ранее писали в Комьюнити.
Как сообщает 3DNews, Lumiere отличается от прочих существующих аналогов уникальной архитектурой – видео по всей его продолжительности генерируется за один подход. При этом другие модели создают видео на базе нескольких ключевых кадров, после производят интерполяцию по времени, что затрудняет согласованность создаваемого ролика.
Lumiere работает в нескольких режимах, к примеру, есть преобразование текста в видео, конвертация статических изображений в динамические, создание видео в конкретном стиле на основе образца. Также есть возможность редактировать существующее видео по текстовым подсказкам, анимирование определенных областей статического изображения или редактирование видео по фрагментам, например, изменение предмета гардероба на человеке.
Отмечается, что пока это только исследовательский проект, и с его помощью компания планирует дать возможность начинающим пользователям генерировать визуальный контент с творческим и более гибким подходом. Однако все равно присутствует риск использования технологии для неправомерного создания подделок или вредоносного контента.
Изображение на обложке: Google Research
Комментарии