Reachy Mini получил полностью локальный разговорный стек

Новость

Редактор новостной ленты

5/28/2026, 6:33:07 AM

Reachy Mini получил полностью локальный разговорный стек

27 мая 2026 года опубликована инструкция по запуску локального разговорного стека для Reachy Mini: весь голосовой пайплайн (VAD→STT→LLM→TTS) можно выполнять на машине пользователя, что даёт приватность и отказ от платных API.

27 мая 2026 года авторы Amir Mahla и Andres Marafioti представили обновлённый разговорный стек для Reachy Mini, который позволяет запускать все этапы голосового диалога локально — без отправки аудио на внешний сервер. Это означает, что владельцы и сборщики Reachy Mini смогут вести полноценные голосовые беседы офлайн, сохраняя контроль над данными и избегая затрат на облачные API. Технически решение организовано как каскад VAD → STT → LLM → TTS и выставляет совместимый с Realtime API /v1/realtime WebSocket. После запуска локального бэкенда пользователю достаточно в desktop‑приложении Reachy Mini в разделе conversation — «edit connection» указать адрес сервера, и робот начнёт обрабатывать голос полностью локально; ранее для разговоров требовалось перенаправление аудио на внешний бэкенд.

Для обслуживания LLM в инструкции рекомендуют использовать llama.cpp и приводят пример запуска сервера: "llama — server -hf ggml-org/gemma — 4-E4B-it-GGUF -np 2 -c 65536 — fa on --swa-full". Авторы поясняют ключевые флаги: np 2 позволяет обрабатывать два параллельных слота, c 65536 задаёт окно контекста 64k, fa on включает ускоренную attention на флеше, а swa-full сохраняет полный sliding‑window кеш для ускорения обработки подсказок.

Быстрый старт с речевой частью показан через установку и запуск ответа‑сервера: установка speech — to-speech (в статье показано "uv pip install speech — to-speech"), затем запуск сервера при работающем LLM командой "speech — to-speech --responses_api_base_url \"http: //127.0.0.1:8080\" --responses_api_api_key \"\" --mode local". При первом запуске локально будут скачаны Parakeet и Qwen3TTS; последующие старты проходят быстрее. llama.cpp с моделью Gemma (ggml-org/gemma — 4-E4B-it-GGUF), Silero VAD для обнаружения речи, Parakeet — TDT в роли STT и Qwen3 для TTS.

Авторы подчёркивают, что каскадный подход гибок: любой блок можно заменить по мере появления новых моделей на Hub. Практические преимущества локального стека — приватность (аудио не покидает сеть), отсутствие платежей за API и полный контроль над пайплайном; одновременно есть компромиссы между скоростью и качеством: доступны более быстрые TTS с худшим качеством и более точные, но медленные STT, поэтому выбор следует оптимизировать под мультиязычные сценарии или под один язык в зависимости от задачи.

Источники

Hugging Face Blog · 5/27/2026

Ответы (0)

Пока нет ответов в этой теме.