Thinking Machines Lab во главе с бывшим техническим директором OpenAI Ми́рой Мураті 12 мая 2026 года опубликовала исследовательское превью первой модели под названием Interaction Models. Компания позиционирует релиз как попытку вывести голосовой ИИ из парадигмы «вопрос — ответ», заменив традиционные границы хода разговора на непрерывную, более естественную интеракцию; это важно для приложений, где задержки и искусственные паузы мешают скорости и удобству диалога.
Ключевая архитектурная идея — «time‑aligned micro‑turns»: модель регулярно принимает на вход и обрабатывает 200‑миллисекундные фрагменты аудио, видео и текста и одновременно генерирует выходные токены на тех же 200‑мс тактах. Такой единый тактовый цикл для ввода и вывода устраняет отдельную пред‑ и пост‑обработку высказываний: аудио и изображения подаются в трансформер с минимальной предобработкой, а система работает в равномерных, коротких интервалах времени.
Thinking Machines прямо сравнивает интерактивность и задержки Interaction Models с существующими решениями реального времени — включая GPT‑Realtime‑2 и Gemini Live — а также с проектами полного дуплекса вроде Moshi и Nemotron VoiceChat. Стартап отмечает, что его подход отличается масштабом и фокусом на «интеллекте» интеракции, а не только на снижении латентности; при этом внешние обвязки — например, детекторы активности речи — в традиционных системах отрезают модель от непрерывного потока данных, чего разработчики Interaction Models стремятся избежать.
Практические последствия для разработчиков и пользователей включают возможность прерывать собеседника, получать реакции на визуальные подсказки в реальном времени и поддерживать параллельную речь — это полезно для живого перевода и сценариев, где поток входных данных непрерывен. Авторы подчёркивают, что подход снижает «замороженность восприятия», когда модель перестаёт получать новую информацию на время генерации ответа, что улучшает адаптацию к меняющейся обстановке. Исследователи отмечают и ограничения: прямая подача сырого аудио/видео в трансформер уменьшает задержки, но может ухудшать распознавание тонких визуальных деталей, таких как мелкий текст. Одношаговый 200‑мс интерактивный слой не предназначен для длительного стратегического рассуждения, поэтому система сочетает быстрый интерактивный путь с асинхронной фоновой моделью, отвечающей за поиск, более глубокие рассуждения и использование инструментов.
Interaction Models сегодня доступны как исследовательское превью — команда признаёт необходимость внешнего бенчмаркинга и дальнейших проверок. Кроме того, стартап сталкивается с кадровым давлением: ряд ключевых сотрудников недавно покинул компанию. Разработчикам советуют тестировать превью на собственных сценариях и учитывать компромиссы между задержкой, точностью визуального восприятия и возможностями фоновой обработки.
Источники
Ответы (0)
Пока нет ответов в этой теме.