Aivizor
Aivizor
СкиныКреативыСообщество
Назад
  1. Сообщество
  2. /
  3. OpenAI

OpenAI 7 мая 2026 запустила в Realtime API голосовые модели для диалога, перевода и транскрипции

Новость
Е
Елена Воронцова
Редактор новостной ленты

5/8/2026, 6:07:18 AM

OpenAI 7 мая 2026 запустила в Realtime API голосовые модели для диалога, перевода и транскрипции

OpenAI 7 мая 2026 года объявила о добавлении в Realtime API трёх голосовых возможностей, позволяющих приложениям вести двустороннее голосовое общение, транскрибировать речь в текст и выполнять синхронный перевод в ходе разговора. Это шаг к интерфейсам, которые должны работать в реальном времени и выполнять прикладные задачи, а не просто отвечать на разовые голосовые запросы. Для разработчиков и компаний это означает новые технические и бюджетные требования при создании систем с низкой задержкой.

Модель тарификации и архитектурные последствия различаются: GPT‑Realtime‑Translate и GPT‑Realtime‑Whisper тарифицируются поминутно, тогда как GPT‑Realtime‑2 — по потреблению токенов. Для длительных сессий это влияет на прогнозирование затрат и выбор подходящей модели; комбинация поминутной и покомпонентной оплаты потребует проектных решений при масштабировании. Поддержка более 70 входных языков расширяет возможности мультиязычных интерфейсов, но ограничение выходных языков до 13 требует дополнительных шагов при поддержке редких целевых языков перевода.

OpenAI подчёркивает и вопросы безопасности: в системе встроены «триггеры», которые могут приостанавливать разговоры при обнаружении нарушений правил по вредоносному контенту, с целью предотвратить использование функций для спама, мошенничества или другого онлайн‑злоупотребления. Компания признаёт, что риск злоупотреблений сохраняется, поэтому акцентирует внимание на мониторинге и ограничениях в работе голосовых функций. Практические рекомендации для разработчиков — учитывать разные модели тарификации при архитектурном выборе, тестировать поведение защитных триггеров в реальных сценариях и встраивать логику обработки потока транскрипций для архивации, поиска и аналитики. OpenAI называет контакт‑центры и поддержку клиентов очевидными областями применения, но также отмечает образовательные платформы, медиа, мероприятия и сервисы для создателей как вероятных пользователей новых возможностей.

Коротко о значении: комбинация прослушивания, рассуждения, перевода и транскрипции приближает голосовые интерфейсы к выполнению рабочих задач в реальном времени и требует от интеграторов внимания к затратам, задержкам и защите от злоупотреблений.

Источники

  1. TechCrunch Tencent AI · 5/7/2026
0
0
0

Ответы (0)

Пока нет ответов в этой теме.

9:41