Яндекс представил диффузионную нейросеть Yandex AI Rendering Technology (YandexART). С ее помощью можно создавать изображения и анимацию по текстовому запросу. На данный момент она интегрирована в приложение Шедеврум и уже помогает генерировать рекламные объявления в Яндекс Бизнесе.
По заявлению компании, ИИ понимает российский культурный код, в том числе распознает известные места и города страны, выдающихся личностей разных эпох и знакомых с детства персонажей мультфильмов и сказок. Например, Чебурашку, богатырей и Бабу-Ягу.
При создании изображений и анимации YandexART использует метод каскадной диффузии. То есть изначально происходит создание картинок и кадров на основе пользовательского запроса, затем поэтапно улучшается разрешение и добавляются детали. Если сравнивать с прошлым поколением диффузионной модели, использованной в Шедевруме, YandexART генерирует более реалистичную и детализированную графику. По итогам внутренней оценки асессоров Яндекса, ее результаты лучше в 60% случаев.
Пример работы нейросети YandexART
Чтобы улучшить качество итоговых работ нейросети, разработчики увеличили размер обучающего набора данных в 1,5 раза – до 330 млн картинок с текстовым описанием. Отбор изображений также производился с помощью трех режимов фильтрации, чтобы подобрать наиболее эстетичные варианты. Вдобавок, новый алгоритм распознавания текстов помогает ИИ лучше понимать пожелания пользователей. Улучшилась и проработка особенностей лиц, глаз и рук, что позволяет ей делать фотореалистичные портреты.
Комментарии