Разработчики из Stability AI представили новое решение – это нейросеть Stable Video 4D, основанная на существующей модели Stable Video Diffusion. С ее помощью можно преобразовывать видео в несколько роликов с 8 разными перспективами.
Если под понятием 3D понимается тип изображения или видео с глубиной, то в 4D не добавляется еще одно измерение. Помимо ширины (x), высоты (y) и глубины (z) оно включает также время (t). Это означает, что Stable Video 4D позволяет смотреть на движущиеся 3D-объекты с разных точек обзора и в разные моменты времени.
В настоящее время Stable Video 4D может генерировать 5-кадровое видео в 8 видах примерно за 40 секунд. При этом вся 4D-оптимизация занимает примерно от 20 до 25 минут.
Как предполагают в своем блоге разработчики компании, модель может применяться в будущем в разработке игр, при редактировании видео, создании виртуальной реальности. В настоящее время нейросеть находится на стадии исследования и постоянно улучшается, а получить к ней доступ можно через Hugging Face.
Комментарии