OpenAI представила три аудио‑модели для реального времени в API

Новость

Редактор новостной ленты

5/8/2026, 12:43:26 AM

OpenAI представила три аудио‑модели для реального времени в API

OpenAI объявила о выпуске трёх новых аудио‑моделей в API, ориентированных на работу в реальном времени: GPT‑Realtime‑2, GPT‑Realtime‑Translate и GPT‑Realtime‑Whisper. Это обновление прямо направлено на разработчиков голосовых приложений и сервисов, так как модели позволяют не только принимать голосовой ввод, но и сразу же отвечать, переводить или транскрибировать речь — то есть обеспечивать интерактивное взаимодействие без долгих задержек. GPT‑Realtime‑2 позиционируется как первая голосовая модель с GPT‑5‑class reasoning и предназначена для сложных диалогов. Модель способна не только понимать и обрабатывать естественную речь, но и решать нетривиальные запросы в контексте разговора и естественно продолжать диалог. Это означает, что голосовые ассистенты и боты на её основе могут выполнять более глубокую логику рассуждений и сохранять связность беседы при продолжительном взаимодействии с пользователем.

GPT‑Realtime‑Translate ориентирована на моментальный перевод устной речи: она принимает входные данные более чем на 70 языках и выдаёт результат в 13 выходных языков. Такая модель пригодится в сценариях живого перевода — от межъязыковых звонков до конференций и систем обслуживания клиентов — где важно быстро преобразовать сказанное в приемлемый для слушателя язык без необходимости ручной расстановки сегментов аудио. GPT‑Realtime‑Whisper разработана для стриминговой транскрипции речи, то есть преобразования устной речи в текст по ходу её поступления. Благодаря стриминговому режиму модель подходит для генерации субтитров в реальном времени, записи заметок по ходу разговора или других задач, где нужен непрерывный текстовый вывод, синхронизированный с аудиопотоком.

Все три модели рассчитаны на создание более естественных голосовых интерфейсов и реакцию в реальном времени: это ключевой шаг к тому, чтобы разговорные приложения реагировали на пользовательские запросы сразу и контекстно, а не в виде набора отдельный синхронных операций. Для разработчиков это означает возможность внедрять функциональность, при которой голосовой ввод и вывод становятся частью единого интерактивного потока. Модели доступны через OpenAI API и рассчитаны на интеграцию в существующие приложения и сервисы. Это позволяет разработчикам использовать уже знакомую инфраструктуру и инструменты API для добавления в свои продукты возможностей рассуждения, перевода и стриминговой транскрипции без необходимости разрабатывать собственные аудиосистемы с нуля.

Источники

OpenAI News · 5/7/2026

Ответы (0)

Пока нет ответов в этой теме.