Anthropic представила Claude Opus 4.8 – ИИ-модель стала честнее и лучше работает с кодом

Anthropic представила новую флагманскую модель Claude Opus 4.8 – в этот раз основной акцент компания сделала на честности искусственного интеллекта: версия 4.8 реже выдает сомнительные утверждения как достоверные и чаще сообщает пользователю о своей неуверенности.

В Anthropic отмечают, что одна из распространенных проблем современных ИИ-моделей – склонность уверенно заявлять о результатах даже при наличии ошибок или недостатке данных. В случае с Claude Opus 4.8 разработчики попытались снизить количество подобных ситуаций. По внутренним тестам компании новая версия примерно в четыре раза реже оставляет незамеченными ошибки в собственном коде по сравнению с предыдущей моделью.

Одновременно улучшились показатели в задачах по программированию и агентных сценариях. В бенчмарке SWE-Bench Pro модель набрала 69,2% и опередила ряд конкурентов – GPT-5.5 и Gemini 3.1 Pro. В Anthropic подчеркивают, что главным изменением считают не цифры тестов, а предсказуемое поведение ИИ во время работы.

Источник: Anthropic (здесь и на обложке)

Вместе с релизом компания обновила и интерфейс чат-бота Claude. Пользователи получили настройку уровня усилий – опция дает выбирать, насколько глубоко модель будет прорабатывать задачу. В быстром режиме Claude отвечает мгновенно и потребляет меньше ресурсов, а для сложных запросов предусмотрены режимы с долгим анализом.

Также Anthropic расширила возможности среды Claude Code. Новый режим Dynamic Workflows позволяет ИИ самостоятельно разбивать крупные задачи на этапы и запускать сотни параллельных субагентов в рамках одной сессии.

Anthropic представила Claude Opus 4.8 – ИИ-модель стала честнее и лучше работает с кодом

Комментарии

Рекомендуем