
3 мая 2026 года исследовательская команда Sakana AI представила KAME (Knowledge‑Access Model Extension) — новый подход к разговорному speech‑to‑speech, который, по описанию авторов, сочетает почти нулевую отклик‑латентность прямых S2S‑систем с возможностью встраивать в генерируемую речь промежуточные ответы от полноценной большой языковой модели в реальном времени. Проект позиционируется как попытка преодолеть фундаментальное противоречие между скоростью и «умностью» голосовых агентов.
KAME реализована как тандэм из двух асинхронных модулей. Фронтенд — S2S‑движок, основанный на архитектуре Moshi, обрабатывает аудиоток покадрово с циклом примерно каждые 80 миллисекунд и начинает генерировать ответ почти мгновенно. В исходной трехпоточной схеме Moshi (входное аудио, внутренняя текстовая репрезентация, выходное аудио) KAME вводит четвертый поток — oracle stream: поток кандидатных текстовых ответов, которые поступают от заднего модуля и используются для условной генерации выходной речи.
Задний модуль KAME сочетает потоковую систему распознавания речи (STT) и полный LLM: по мере того как STT строит частичные транскрипты, они периодически отправляются в LLM, который генерирует кандидатные текстовые ответы — «ораклы» — и стримит их обратно фронтенду. Эти ораклы по мере поступления уточняются: в начале они представляют собой обоснованные догадки, а с ростом полноты транскрипта становятся корректнее, что позволяет фронтенду изменять уже начатую речь подобно тому, как человек может корректировать высказывание в реальном времени. Асинхронность работы модулей сохраняет исходно низкую задержку отклика.
Для обучения KAME команда Sakana AI разработала технику Simulated Oracle Augmentation, поскольку естественных датасетов с сигналами «оракла» нет. С помощью симулятора‑LLM и стандартных конверсационных пар (вопрос/ответ) создавали прогрессирующие последовательности ораклов с шестью уровнями подсказок (0–5), где уровень 0 — это свободная догадка, а уровень 5 — точный целевой ответ. Тренировочный набор включал 56 582 синтетических диалога, собранных из MMLU — Pro, GSM8K и HSSBench, преобразованных в аудио через TTS и дополненных такими последовательностями ораклов.
Результаты предварительных оценок на синтезированной аудио‑подвыборке MT‑Bench (многотуровые Q&A, секции: reasoning, STEM и humanities; отдельные категории признаны неподходящими для речи и исключены) показали заметный прирост качества при сохранении низкой латентности. Moshi в одиночку набирает 2.05 балла по выбранной метрике, KAME с бэкендом gpt‑4.1 — 6.43, KAME с бэкендом claude — opus‑4‑1 — 6.23 при практически той же задержке, что и у Moshi. Для сравнения, ведущая каскадная система Unmute (с бэкендом gpt‑4.1) показала 7.70 балла, но при медианной задержке порядка 2.1 секунды. Авторы также упоминали, что оценивали текстовые ответы заднего LLM, возвращаемые в финальной инъекции оракула, отдельно, чтобы отделить влияние тайминга от собственных возможностей бэкенда.
Практическое значение KAME заключается в потенциале появления голосовых агентов, которые говорят почти сразу и одновременно опираются на более сильную языковую обработку. При этом авторы и сторонние наблюдатели отмечают важность независимых испытаний и проверки качества oracle‑stream в реальных условиях: исходные публикации не приводят подробной информации о развертывании, оценках устойчивости при сетевой задержке, анализе безопасности или приватности и результатах с реальными пользователями, поэтому окончательное суждение о продуктивности и надежности подхода потребует дополнительных независимых экспериментов и аудитов.
Источники
Ответы (0)
Пока нет ответов в этой теме.