Спустя год после выпуска генератора изображений Kandinsky 2.1 Сбер анонсировал выпуск новой версии модели Kandinsky 3.1 – она быстрее обрабатывает задачи, создает более качественные картинки и обладает опцией бьютификации запроса. На данный момент доступ к нейросети есть у представителей художественной сферы и блогеров, а в скором времени Kandinsky 3.1 станет доступен всем желающим.
Модель обучили на эстетическом дата-сете из 100 тыс. пар изображений с описаниями. Благодаря внедрению более мощного текстового энкодера и пересмотра архитектуры Kandinsky 3.0 разработчикам удалось повысить качество как с точки зрения детализации и реалистичности, так и в плане общего понимания моделью текста. По сравнению с версией 3.0, новая версия работает в 20 раз быстрее – генерирование картинки осуществляется в четыре прохода через U-Net.
Источник: Хабр (здесь и далее)
Также в Kandinsky теперь можно генерировать изображения в 4К, а опция Inpainting позволит дорисовать недостающие фрагменты картинки по тексту. Промпт был улучшен посредством языковой модели Neural-Chat-v3-1.
Появилась и еще одна функция – бьютификация запроса. Раньше, чем подробнее был запрос, тем красивее и детализированнее получался результат. Однако некоторые пользователи делали короткие и малоинформативные запросы, из-за чего изображение получалось недостаточно качественным. Теперь Kandinsky отправляет инструкцию по улучшению запроса в языковую модель, та добавляет в нее подробности и подает расширенный вариант описания на вход Kandinsky для генерирования.
Над Kandinsky 3.1 работали специалисты Sber AI и команда Института ИИ AIRI, были использованы дата-сеты Sber AI и SberDevices.
В ближайшем будущем Сбер планирует обновить нейросеть Kandinsky Video до версии 1.1. В компании отмечают, что в новой версии разрешение увеличится в 2 раза.
Изображение на обложке: Сбер
Комментарии