Сбер разработал первую в мире нейросеть ruDALL-E, генерирующую изображения на основе словесного русскоязычного описания. Она подойдет для создания векторных иллюстраций, стоковых картинок, материалов для рекламы, а также для использования в промышленном и архитектурном дизайне.
Обучение ее производится на основе двух видов данных – картинок и текстов. За счет этого возможна генерация неограниченного числа новых изображений по заданному описанию. Так, на данный момент существует две версии модели с разными наборами параметров. В первом варианте ruDALL-E XL предусмотрено 1,3 миллиарда параметров, а вот во второй, более расширенной ruDALL-E 12B их уже 12 миллиардов.
Желающие смогут бесплатно использовать в своих разработках нейросеть ruDALL-E, загрузив ее с сервиса Github. Обе модели скоро появятся на платформе ML Space в хабе предварительно обученных моделей и датасетов DataHub от SberCloud. Также есть возможность протестировать демоверсию на отдельном сайте, при этом ждать до завершения генерации картинки нужно от 5 до 40 минут.
Работы нейросети по запросам «Италия, виноград, горы, дома, солнце» и «Сказочная зима»
Работа нейросети по созданию изображения проходит в три этапа. Сначала принимается и обрабатывается введенный текст, в соответствии с которым генерируется определенное число картинок. Далее нейросеть выбирает наиболее удачные варианты, подходящие текстовому описанию, а затем увеличивает их в размере без потери качества. В результате получается неограниченное число новых изображений, которые подходят под заданные характеристики.
Комментарии
Спасибо, конечно))