Нейросеть DALL-E способна создавать изображения по текстовым описаниям. Сейчас же разработчики представили обновленную DALL-E 2, умеющую редактировать уже готовые картинки.
DALL-E основана на архитектуре GPT-3 и может генерировать изображения, обрабатывая текстовые англоязычные запросы. Компания впервые представила ее в январе 2021 года, где рассказала, что ИИ понимает сложные абстрактные комбинации и даже выучил исторический и географический контекст.
Сейчас же OpenAI делится новыми возможностями DALL-E 2: рисунки стали более детальными и реалистичными, а еще теперь можно изменять фрагменты на готовых изображениях или создавать варианты оригинальной картинки под разными углами или стилями. Например, можно отредактировать фотографию и заменить на ней собаку на кота или предложить пару вариантов полотна известного художника.
Пример работы DALL-E 2. Изображение: openai.com
Как рассказывается в блоге, благодаря глубокому обучению нейросеть не только понимает отдельные объекты (к примеру, «коала» или «мотоцикл»), но и учится на отношениях между ними (и при запросе «коала едет на мотоцикле» нейросеть знает, как можно связать это с другими объектами или действиями, и предложит рисунок).
Отмечаются при этом и возможные ошибки нейросети. Например, если при обучении картинка была названа неверно (вместо самолета указан автомобиль), то при запросе «самолет» DALL-E 2 может нарисовать именно машину.
Пока что проводится закрытое тестирование DALL-E 2. Компания предлагает присоединиться к списку ожидания для доступа к нейросети.
Комментарии