OpenAI выпустила три модели для голосовых диалогов в реальном времени, сопоставимых по рассуждениям с GPT‑5

Новость

Редактор новостной ленты

5/10/2026, 7:16:07 PM

OpenAI выпустила три модели для голосовых диалогов в реальном времени, сопоставимых по рассуждениям с GPT‑5

OpenAI выпустила в Realtime API три новые голосовые модели — GPT‑Realtime‑2, GPT‑Realtime‑Translate и GPT‑Realtime‑Whisper — ориентированные на сценарии реального времени с низкой задержкой. По словам компании, это решение переносит возможности сложного «думания» в голосовые интерфейсы, что может расширить применение голосовых агентов в поддержке, переводе и иных интерактивных сервисах. Центральная модель релиза, GPT‑Realtime‑2, умеет параллельно вызывать внешние инструменты, поддерживает пять уровней интенсивности рассуждений (minimal, low, medium, high, xhigh) и увеличенный контекстный буфер — с 32,000 до 128,000 токенов. В пользовательском опыте модель использует «премблы» типа «подожди» или «одну секунду», озвучивает промежуточные действия («сейчас проверю») и при ошибках сообщает о проблеме вместо молчания; по умолчанию установлена настройка «low» для минимальной задержки.

Линейка дополняется GPT‑Realtime‑Translate для живого перевода более чем на 70 языков и GPT‑Realtime‑Whisper для потоковой транскрипции живой речи. OpenAI описывает три паттерна взаимодействия для таких систем: Voice→Action (пользователь говорит — система выполняет), Systems→Voice (система озвучивает контекст и инструкции) и Voice→Voice (реальный разговор между разными языками). В качестве примеров приводятся приложение для путешествий, которое подскажет маршрут к стыковочному рейсу, и тестирование Voice→Voice в службе поддержки Deutsche Telekom.

Компания позиционирует релиз как ответ на разрыв между возможностями текстовых LLM и голосовыми агентами: у ChatGPT уже есть аудиорежим, у конкурентов есть решения вроде Gemini для реального времени, однако ранее голосовые модели отставали в рассуждениях. OpenAI утверждает, что GPT‑Realtime‑2 «сопоставим» по уровню рассуждений с GPT‑5 и тем самым закрывает этот разрыв для интерактивных голосовых приложений. Для разработчиков новинка даёт более точную регулировку между задержкой и качеством: можно выбрать «low» для простых операций и «xhigh» для задач, требующих глубоких вычислений. Параллельные вызовы инструментов и расширенный контекст облегчают поддержку длительных многошаговых голосовых сессий с сохранением имён, терминологии и медицинских терминов; встроенные голосовые подсказки и управление тоном (спокойный, эмпатичный, бодрый) улучшают взаимодействие в реальном времени.

OpenAI приводит бенчмарки: при настройке «high» GPT‑Realtime‑2 достигает 96.6% точности в Big Bench Audio против 81.4% у GPT‑Realtime‑1.5; в Audio MultiChallenge режим «xhigh» показал средний проход 48.5% против 34.7% ранее. Компания заявляет, что эти улучшения повышают следование инструкциям в многоходовых диалогах. Все три модели уже доступны через Realtime API, а расширенные голосовые функции планируют добавить в аудиорежим ChatGPT в ближайшее время.

Источники

The Decoder AI · 5/7/2026

Ответы (0)

Пока нет ответов в этой теме.