
Apple Machine Learning Research представила инновационную разработку под названием StereoFoley, фреймворк для генерации видео-аудио, который, как ожидается, установит новый стандарт в создании семантически точного, временно синхронизированного и пространственно корректного стереозвука с частотой дискретизации 48 кГц из видео. Это исследование было опубликовано в апреле 2026 года и представлено на конференции ICASSP. Центральной проблемой, которую решает StereoFoley, являлось ограничение предыдущих генеративных моделей, которые в значительной степени оставались монофоническими или не могли обеспечить объектно — ориентированное стереоизображение.
Для решения этой задачи был разработан двухэтапный подход. На первом этапе исследователи разработали и обучили базовую модель, способную генерировать стереоаудио из видео. Эта модель продемонстрировала выдающиеся результаты, достигнув передового уровня как в семантической точности, так и в синхронизации звука с видеорядом. Однако, несмотря на эти значительные успехи, базовая модель по-прежнему сталкивалась с проблемой ограниченности существующих наборов данных, что не позволяло ей в полной мере создавать пространственно точное, объектно — ориентированное стереоизображение. Эта фундаментальная проблема нехватки подходящих обучающих данных оставалась ключевым барьером для достижения полного потенциала генерации реалистичного пространственного звука.
Чтобы преодолеть ограничения в доступности данных, команда внедрила новаторский пайплайн для генерации синтетических данных. Этот пайплайн сочетает в себе детальный видеоанализ, точное отслеживание объектов в кадре и синтез аудио. Ключевыми инновациями в этом процессе стали динамическое панорамирование и управление громкостью на основе расстояния до объекта, что позволило создать пространственно точный и объектно — ориентированный звук. Этот метод позволил сгенерировать обширный и высококачественный синтетический набор данных, который имитирует сложность и пространственную точность, свойственную профессионально микшированным аудиозаписям, и который ранее отсутствовал в этой области исследований.
Заключительным этапом разработки StereoFoley стала точная настройка (fine-tuning) базовой модели на созданном синтетическом наборе данных. Это позволило модели добиться четкого соответствия между объектами в видео и генерируемыми аудиоэффектами, значительно улучшив ее способность к созданию пространственно достоверного звука. Учитывая отсутствие общепринятых метрик для оценки объектно — ориентированного стереозвука, исследователи Apple представили собственные меры объектной осведомленности для стерео. Эти новые метрики были подтверждены в ходе человеческого слушательского исследования, которое продемонстрировало сильную корреляцию с человеческим восприятием, что подтверждает эффективность и качество генерации StereoFoley.
В результате, StereoFoley является первым сквозным фреймворком для объектно — ориентированной стереогенерации аудио из видео, заполняющим критический пробел в этой области и устанавливающим новый стандарт. Последствия внедрения этой технологии могут быть весьма значительными для множества отраслей, включая кинопроизводство, виртуальную и дополненную реальность (VR/AR), а также игровую индустрию, открывая путь к созданию гораздо более реалистичного и захватывающего контента.
Источники
Ответы (0)
Пока нет ответов в этой теме.