Apple в сотрудничестве с Калифорнийским университетом выпустила новую модель искусственного интеллекта MGIE (MLLM-Guided Image Editing) с открытым исходным кодом. С ее помощью можно редактировать фотографии, задавая для этого текстовые команды.
Как пишет Rozetked, для интерпретации пользовательских команд и их выполнения используются мультимодальные большие языковые модели (MLLM). То есть при редактировании одновременно нейросеть может как распознавать объекты на изображении, так и понимать текстовые запросы.
Благодаря такому решению изображение можно менять локально и глобально. К примеру, есть возможность изменения уровня яркости или контрастности, применения различных художественных эффектов, удаления объектов с фото и так далее.
Источник: arxiv.org
Пока разработка от Apple находится на раннем этапе разработки, код ее опубликован на GitHub. Демоверсия модели MGIE доступна на сайте для исследователей машинного обучения Hugging Face Spaces. Отметим, что в сервисе обрабатываются запросы только на английском языке. На момент выхода скорость работы может быть снижена в связи с большим количеством запросов.
Комментарии