Thinking Machines Lab под руководством Mira Murati представила исследовательский превью Interaction‑Small — новую категорию «interaction models», цель которой сделать интерактивность нативной для моделей, а не добавлять её снаружи. Это важно, потому что лаборатория считает, что традиционная модель «ход — ответ» ограничивает возможности совместной работы человека и ИИ в реальном времени. Interaction‑Small описывается как модель Mixture‑of‑Experts с 276B параметров и 12B активными параметрами. Архитектура выстроена вокруг мультистримной, временно выровненной схемы микротуров (micro‑turn), которая обрабатывает 200ms фрагменты данных. Такой дизайн призван синхронизировать разные потоки ввода и сохранить контекст между короткими интервалами времени.
Авторы указывают на главный недостаток традиционного подхода: turn‑based системы по сути «ждут», пока пользователь закончит ввод, затем обрабатывают и только после этого отвечают. В результате модель не видит, что происходит, пока пользователь ещё печатает или говорит — она не фиксирует паузы в середине фразы, не реагирует на живую камеру и не учитывает визуальные события в реальном времени. Аналогично, во время генерации модель слепа — восприятие замораживается, пока она не завершит ответ или не будет прервана.
Чтобы обойти эти ограничения, многие решения используют внешний «каркас» из отдельных компонент, имитирующих отзывчивость. Частый пример — voice‑activity detection (VAD), который предсказывает конец речи, чтобы запустить генерацию в turn‑based системе. Такие обвязки состоят из компонентов, как правило, менее интеллектуальных, чем сама модель, и они ограничивают возможности: невозможность проактивных визуальных реакций, говорения одновременно со слушанием или реагирования на подсказки, которые не произнесены вслух. Thinking Machines Lab утверждает, что это наблюдение — вариация «bitter lesson» в машинном обучении: ручная инженерия сложных обходных путей в конечном счёте уступит масштабируемым общим решениям. Interaction‑models в их видении предлагают перенести интерактивность внутрь архитектуры, чтобы расширить канал взаимодействия между человеком и моделью и уменьшить зависимость от внешних хаков.
Короткий вывод: если идея подтвердится в дальнейших исследованиях и внедрениях, разработчики реального времени — голосовых ассистентов, систем совместной работы и других интерактивных приложений — смогут опереться на модели с нативной интерактивностью, вместо того чтобы собирать отдельные компоненты для имитации отзывчивости.
Источники
Ответы (0)
Пока нет ответов в этой теме.