
AWS представила новое решение для создания масштабируемого и экономически эффективного конвейера для мультиязычной транскрипции аудио, нацеленное на значительное снижение затрат при крупномасштабной расшифровке. Это инновационное предложение основано на использовании открытой модели NVIDIA Parakeet — TDT-0.6B-v3 в сочетании с ключевыми сервисами AWS, такими как AWS Batch и Amazon S3. Модель Parakeet — TDT-0.6B-v3, которая, как ожидается, будет выпущена в августе 2025 года, является полностью открытой и поддерживает множество языков.
коэффициент ошибок в словах (WER) составляет 6.34% в идеальных условиях и 11.66% при соотношении сигнал/шум 0 dB. Модель способна автоматически определять и обрабатывать 25 европейских языков, включая русский и украинский. Развертывание конвейера осуществляется с помощью AWS Batch на мощных GPU-ускоренных инстансах Amazon EC2 (например, G6, G5 или G4dn), требующих минимум 4 ГБ видеопамяти, и позволяет обрабатывать аудиофайлы продолжительностью до трех часов.
Решение ориентировано на организации, работающие с постоянно растущими объемами медиаданных: от архивирования обширных библиотек и анализа записей колл — центров до подготовки обучающих данных для систем ИИ и создания субтитров к видео. В условиях значительного роста данных традиционные управляемые сервисы автоматического распознавания речи (ASR) часто становятся ограничивающим фактором из-за высокой стоимости. Предложенная архитектура AWS обеспечивает существенное снижение затрат — до долей цента за час аудио. Это достигается благодаря применению инстансов Amazon EC2 Spot и буферизованного потокового вывода, а также способности конвейера масштабироваться до нуля в режиме простоя, минимизируя расходы и оплачивая только фактическое время использования вычислительных ресурсов.
Для разработчиков конвейер запускается автоматически при загрузке аудиофайла в указанную корзину Amazon S3. Это действие активирует правило Amazon EventBridge, которое направляет задание на обработку в AWS Batch. Далее AWS Batch динамически выделяет необходимые ресурсы GPU, после чего контейнерное изображение с предзагруженной моделью Parakeet — TDT из Amazon Elastic Container Registry (ECR) выполняет транскрипцию. Результат — JSON-транскрипт с временными метками — сохраняется в выходной С3 — корзине. Разработчики получают преимущества от использования открытой модели и готового, оптимизированного для вывода контейнерного образа, который предварительно кэширует модель Parakeet — TDT-0.6B-v3 на этапе сборки. Такой подход исключает задержки при загрузке модели во время выполнения и упрощает интеграцию, позволяя разработчикам сосредоточиться на создании приложений, а не на сложностях управления множеством моделей для разных языков.
Источники
Ответы (0)
Пока нет ответов в этой теме.