Компания OpenAI анонсировала запуск нового инструмента для разработчиков – Realtime API, который помогает быстро создавать голосовые приложения. Инструмент был представлен на ежегодном мероприятии DevDay 2024 и призван упростить процесс разработки речевых интерфейсов.
Ранее разработчикам приходилось проходить несколько этапов: транскрибировать аудиодорожку, обрабатывать слова и преобразовывать их в готовую речь. Новый API устраняет необходимость в многоступенчатом процессе – все операции выполняются с помощью одного запроса. Это не только ускоряет работу, но и улучшает качество взаимодействия, устраняет задержки и потерю эмоциональной окраски.
Презентация Realtime API на DevDay 2024. Источник: community.openai.com
Разработчики могут применять API с другими сервисами (например, с Twilio) для создания голосовых ассистентов, способных выполнять заказы и предоставлять персонализированные ответы.
Среди первых успешных примеров использования Realtime API – образовательная платформа Speak, которая помогает пользователям практиковать разговорные навыки на новом языке.
Кроме того, OpenAI представила на DevDay 2024 инструменты для тонкой настройки языковых моделей с учетом изображений и текста (Vision Fine-Tuning), также функцию кэширования промптов (Prompt Caching).
Комментарии