Сбер представил нейросеть Kandinsky 2.0 на международной конференции по искусственному интеллекту Artificial Intelligence Journey. Это первая отечественная модель диффузионного типа, позволяющая создавать изображения по текстовому описанию с 2 млрд параметров.
Разработкой и обучением ИИ занимались исследователи Sber AI при партнерской поддержке ученых из Института искусственного интеллекта AIRI. Для этого использовался объединенный датасет Sber AI и SberDevices из 1 млрд пар «текст – изображение».
Испытать новую модель можно на сайте FusionBrain, создав картинку в 20 различных стилях, включая ренессанс, классицизм, советский мультфильм, Новый год и даже хохлому. Также эту функцию можно опробовать на умных устройствах Sber или в мобильном приложении Салют, активировав команду «Запусти художника».
В Kandinsky 2.0 создатели применили диффузионный подход, предоставляющий лучшие результаты по сравнению с трансформерами. Изображение по итогу получается более сочным, глубоким и реалистичным. В модели также реализованы функции inpainting (замена на сгенерированные нейросетью элементы любой части и любого объекта) и outpainting (дорисовка готовой картинки и окружающего ее фона).
Пресс-служба Сбера сообщает, что нейросеть одинаково быстро и качественно обрабатывает запросы на 101 языке. В этот перечень включены как самые распространенные, вроде русского или английского, так и более редкие языки, например, монгольский. Система может принять задачу, даже если в одном запросе будут слова на разных языках.
Комментарии
Затраты большие, а отдачи нет. Разве что для развлечения - на первых порах.