OmniVoice Studio — открытое десктоп‑приложение для локального синтеза, клонирования и дубляжа голоса

Новость

Редактор новостной ленты

5/26/2026, 8:01:52 AM

OmniVoice Studio — открытое десктоп‑приложение для локального синтеза, клонирования и дубляжа голоса

OmniVoice Studio — открытый десктоп‑проект, который выполняет локальное голосовое клонирование, видеодубляж, «реальное» распознавание речи, вокальную изоляцию и диаризацию без облака, API‑ключей или подписки.

OmniVoice Studio — открытый десктоп‑проект, который обеспечивает полноценную работу с голосом полностью локально: клонирование голоса, дубляж видео, распознавание речи в реальном времени, вокальная изоляция и диаризация спикеров без отправки аудио в облако, без API‑ключей и платных подписок. Это значение имеет для разработчиков и создателей контента: локальная обработка снижает зависимость от тарифов и сторонних сервисов и даёт полный контроль над приватностью данных.

В интерфейсе реализованы шесть пользовательских функций: нулевой‑шот клонинг голоса по трёхсекундной выборке с использованием diffusion‑TTS; «дизайнер голосов» с параметрами пола, возраста, акцента, высоты тона, скорости, эмоций и диалекта; локальный конвейер видеодубляжа (YouTube‑URL или файл) с транскрипцией WhisperX, переводом и генерацией нового звука в MP4; системный виджет диктовки (на macOS — ⌘+⇧+Space) со стримингом по WebSocket и автопастом; пакетная очередь до 50 видео; и MCP‑сервер для внешней интеграции.

Архитектура сочетает React‑фронтенд и FastAPI‑бэкенд: API открывает 97 конечных точек, поддерживает стриминг через Server‑Sent Events и хранит данные в SQLite. ML‑функции выполнены на проверенных библиотеках: WhisperX обеспечивает ASR с ворд‑левел выравниванием и поддержкой 99 языков, Demucs отвечает за разделение источников, Pyannote — за диаризацию, а AudioSeal внедряет невидимый нейронный водяной знак, который сохраняется после сжатия для установления provenance. Десктоп‑обёртка построена на Tauri; кодовая база включает Python, JavaScript, CSS и Rust.

Система TTS оформлена как расширяемый реестр с шестью штатными движками. Среди них — движок OmniVoice (дефолт, в описании проекта указывается «600+ языков»), а в маркетинговой части проект заявляет поддержку 646 языков TTS; CosyVoice 3 (9 языков и 18 диалектов, лицензия Apache‑2.0); MLX‑Audio (только для Apple Silicon, включает Kokoro и Qwen3‑TTS); VoxCPM2 (30 языков, Apache‑2.0); MOSS‑TTS‑Nano (20 языков, реальное время на CPU) и KittenTTS (только английский, CPU‑только, MIT). добавление кастомного движка занимает порядка 50 строк Python (subclass TTSBackend в backend/services/tts_backend.py и регистрация в _REGISTRY).

На рынке проект позиционируется как приватная и более масштабируемая альтернатива облачным сервисам: в отличие от коммерческих платформ, которые обрабатывают аудио в облаке, OmniVoice обеспечивает локальную обработку. Для сравнения, в материале упомянута платформа, предлагающая 32 языка и тарифы примерно $5–$330 в месяц, где аудио передаётся на внешние серверы; локальная модель снижает зависимость от подписок и от облачного хранения данных, что даёт разработчикам контроль над затратами и конфиденциальностью.

Для развёртывания проект автоматически детектирует GPU‑стек (CUDA для NVIDIA, MPS для Apple Silicon, ROCm для AMD) и умеет смещать нагрузку: при наличии видеопамяти менее 8 ГБ TTS автоматически сбрасывает нагрузку на CPU во время транскрипции без ручной настройки. Для запуска требуются ffmpeg, Bun и uv; после клонирования репозитория команды uv sync, bun install и bun dev поднимут фронтенд на http: //localhost:5173, а API заработает локально, что позволяет тестировать пайплайны и пакетную обработку на собственной инфраструктуре.

Источники

MarkTechPost AI · 5/26/2026

Ответы (0)

Пока нет ответов в этой теме.