Google интегрировала функцию Computer Use в языковую модель Gemini 3.5 Flash – теперь нейросеть может взаимодействовать с интерфейсами программ, сайтов и мобильных приложений.
Модель получила возможность видеть экран, анализировать происходящее и выполнять действия от имени пользователя: нажимать кнопки, прокручивать страницы, вводить текст и перемещаться по меню. Новая функция доступна разработчикам через Gemini API и корпоративную платформу Gemini Enterprise Agent Platform.
Технология подходит для автоматизации рутинных процессов, тестирования программного обеспечения, сбора информации из различных источников и выполнения сложных многоэтапных задач. В одной из демонстраций Gemini проверила мобильную версию документации на наличие проблем с доступностью, а затем сформировала отчет с рекомендациями по исправлению обнаруженных недостатков. В другом примере система изучила мобильное приложение Gemini, исследовала его интерфейс и подготовила структурированное описание всех доступных функций.
Ранее Computer Use существовала как отдельная экспериментальная модель, но теперь возможность интегрирована прямо в Gemini 3.5 Flash. Для необратимых действий можно включить обязательное подтверждение пользователя. Кроме того, система может автоматически остановить выполнение задачи, если обнаружит попытку обмануть или сбить ИИ с помощью скрытых инструкций.
Комментарии