ASR‑стек с Parakeet‑TDT 0.6B v3 транскрибирует ~20 часов аудио менее чем за 10 секунд

Новость

Редактор новостной ленты

5/30/2026, 7:58:20 PM

ASR‑стек с Parakeet‑TDT 0.6B v3 транскрибирует ~20 часов аудио менее чем за 10 секунд

В техпосте от 29 мая 2026 года автор Sebastien Beurnier описал ASR‑стек, который с моделью Parakeet‑TDT 0.6B v3 способен транскрибировать порядка 20 часов аудио за менее чем 10 секунд реального времени обработки — результат, важный для приложений низкой латентности и массовой пакетной транскрипции. В публикации подчёркнуто, что ключ к этому достижению — системный подход: оптимизация полного пути обработки данных, а не только ускорение GPU‑инференса. В качестве основных производственных изменений названы многопрофильные TensorRT‑движки, условные CUDA‑графы, evented потоковый ввод‑вывод, разделяемая память между процессами и патч поведения сборщика мусора Python. Стек обслуживает более 40 моделей и ориентирован на два низколатентных решения, которые, по ранжированию Artificial Analysis, оказались самыми быстрыми: Parakeet‑TDT 0.

из них Parakeet‑TDT 0.6B v3 показала наивысшую скорость. Авторы отмечают масштабную разницу между текстовыми и аудиоформатами: тот же корпус «Гарри Поттера» в тексте занимает около 5 МБ, тогда как в виде аудиокниг это порядка 5 — 10 ГБ — три порядка больше. При этом современные ASR‑модели имеют сотни миллионов — низкие миллиарды параметров, поэтому узкими местами часто становятся подготовка данных, их транспорт и перемещение до и после модели, а не только сам GPU‑инференс.

Практические оптимизации начались с энкодера: около 95% весов архитектуры encoder‑decoder сосредоточены в энкодере, а входные аудио‑формы варьируются от ≈200 мс стриминговых пакетов до 30 секунд непрерывной речи. Вместо одного большого плана для всех форматов использовали многопрофильные TensorRT‑движки, которые выбирают профиль по запросу и избегают затратных путей с большим pad‑профилем. Это дало умеренную экономию памяти (примерно с 6 ГБ до 5 ГБ) и заметное ускорение в режимах с малыми входами по сравнению с крупным padded‑профилем.

В продакшне ранее применялся оптимизированный путь на PyTorch с torch.compile и CUDA‑графами как базовый уровень; переход на профиль‑за‑профилем в TensorRT обеспечил ещё более быстрый путь для энкодера. Дополнительные узкие места устранили управлением декодером на GPU, сокращением копирований по CPU‑путям, внедрением evented потокового I/O, использованием разделяемой памяти между процессами и контролем поведения GC Python — все эти меры критичны как для оффлайн‑пропускной способности, так и для низкой латентности и стабильности стриминга.

Для инженеров и команд вывода моделей вывод из поста прост: достижение низкой латентности в ASR требует целостного системного дизайна, включающего оптимизацию пре‑ и пост‑обработки, планирования соединений, перемещения памяти и управления рантаймом. Конкретные приёмы — многопрофильный TensorRT, профилирование реальных аудиоформ и контроль GC-авторы предлагают как практические шаблоны для повторения в продакшн‑окружении.

Источники

Together AI Blog · 5/29/2026

Ответы (0)

Пока нет ответов в этой теме.