OpenAI анонсировала GPT-Realtime-2 – голосовую модель с рассуждениями на уровне GPT-5. Система позволяет создавать ИИ-ассистентов, которые могут выполнять сложные задачи в реальном времени: анализировать запросы, использовать внешние инструменты, переводить речь и вести длинный диалог.
В модели GPT-Realtime-2 появился встроенный режим рассуждений – благодаря нему она справляется с логическими задачами, математикой и сложными пользовательскими сценариями. В тесте Big Bench Audio новинка показала точность 96,6% против 81,4% у предыдущей версии. Еще система научилась объяснять свои действия во время работы: когда GPT-Realtime-2 занята, она не молчит, а сообщает, что проверяет календарь или ищет данные в интернете.
Контекстное окно бота увеличилось с 32 до 128 тысяч токенов, а разработчики теперь могут выбирать уровень глубины рассуждений – от минимального для простых запросов до xhigh для сложных многоэтапных диалогов.
Параллельно с GPT-Realtime-2 компания представила еще две модели: GPT-Realtime-Translate – для синхронного перевода речи более чем с 70 языков на 13 выходных языков, GPT-Realtime-Whisper – для потоковой транскрипции: текст появляется прямо во время разговора, а не после завершения фразы.
Новые инструменты уже тестируют крупные компании. Zillow использует GPT-Realtime-2 для голосового помощника в сфере недвижимости и сообщает о заметном росте точности диалогов. Deutsche Telekom проверяет возможности живого многоязычного общения, а Vimeo экспериментирует с синхронным переводом видеороликов во время воспроизведения.
Новые модели доступны через API для разработчиков. Позже OpenAI планирует интегрировать GPT-Realtime-2 и в ChatGPT.
Изображение на обложке: OpenAI
Комментарии