Разработчики Сбера представили новую версию нейросети Kandinsky – отечественного аналога популярного алгоритма Midjourney. Модель можно использовать для создания или дорисовки изображений по текстовому описанию. Доступ к ней открыт всем желающим пользователям.
Нейросеть может также смешивать несколько рисунков, изменять их по текстовому описанию, генерировать иллюстрации, похожие на заданные, и даже формировать изображения в режиме бесконечного полотна (inpainting/outpainting). Отмечено, что модель понимает запросы на 101 языке, включая русский и английский, и умеет рисовать в различных стилях.
Разработку и обучение Kandinsky 2.1 проводили исследователи Sber AI при партнерской поддержке ученых из Института искусственного интеллекта AIRI на объединенном датасете Sber AI и компании SberDevices.
ИИ-модель дополнительно обучали на 170 млн парах «текст – изображение» высокого разрешения к уже имеющемуся набору в 1 млрд аналогичных пар. Затем проводилось дообучение на отдельно собранном датасете из 2 млн пар изображений. В этот сет также попали картинки с описаниями в таких областях, как тексты и лица людей.
Пример работы нейросети Kandinsky 2.1
Нейросеть усовершенствовали с помощью новой обученной модели автоэнкодера, используемой и в качестве декодера векторных представлений изображений. Именно это решение позволило достичь высокого разрешения при генерации картин. Благодаря этому новая модель содержит 3,3 млрд параметров вместо 2 млрд в Kandinsky 2.0.
Первая версия Kandinsky была представлена еще в июне 2022 г. Тогда это была улучшенная версия нейросети ruDALL-E, генерирующей картинки по описанию на русском языке. В ноябре того же года Сбер запустил Kandinsky 2.0 на международной конференции по искусственному интеллекту Artificial Intelligence Journey, о чем мы писали в Комьюнити.
Комментарии