Компания OpenAI анонсировала тестовую версию ИИ-агента Operator – ассистент может выполнять действия в веб-пространстве вместо пользователя. Инструмент найдет билеты и подберет товары, а еще – он умеет работать со страницами в интернете, использует текстовый ввод, прокрутку и нажимает на кнопки.
Operator функционирует на базе Computer-Using Agent (CUA) – модель обладает способностями GPT-4o и применяет методики обучения с подкреплением. Это позволяет агенту анализировать код страниц и взаимодействовать с интерфейсом. Инструмент не требует интеграции через API и является универсальным для разных цифровых сред.
Как работает Computer-Using Agent (CUA). Источник: OpenAI (здесь и на обложке)
Operator умеет адаптироваться к изменениям на экране и передавать управление пользователю при появлении трудностей. При вводе персональных данных и паролей бот запрашивает разрешение.
Помощник показывает впечатляющие результаты – до 87% успешных действий на WebVoyager. Но модель все еще нуждается в улучшении для действий с более сложными платформами, так что работа над ней продолжается.
Пока агент доступен только в США для владельцев подписки ChatGPT Pro. В будущем OpenAI обещает открыть доступ к Operator для тарифов Plus, Enterprise и интегрировать ассистента в ChatGPT.
Комментарии