Шун Фудзияши, автор и технический директор проекта SPECTRA, рассказал, как пять AI‑агентов почти автономно сгенерировали и смонтировали музыкальное видео «LOWKEY», используя Wan 2.7 для генерации кадров и HappyHorse для финального композитинга и сборки.
Пять виртуальных исполнителей проекта SPECTRA практически сами срежиссировали музыкальный клип «LOWKEY»: агенты управляли выбором кадров, ритмом сцен и переходами, доведя трек до почти готового видео при минимальном вмешательстве человека. По словам автора и технического директора Шуна Фудзияши, этот результат демонстрирует реализацию принципа «почти нулевого касания» в творческом пайплайне — важный шаг для ускорения производства и снижения ручной постобработки.
Стек проекта опирается на две ключевые части: Wan 2.7 для генерации видео и HappyHorse для редактирования и композитинга. Для Wan 2.7 применяли приём передачи референсных фреймов (frame chaining), который сохраняет визуальные подсказки между кадрами и уменьшает резкие визуальные дрейфы при склейках. HappyHorse использовался агентами для финальных сборок, освещения, тональных указаний и композитинга, то есть для доводки и интеграции сгенерированных материалов.
Агенты вели весь рабочий цикл: сначала генерировали кандидаты кадров с итерациями промптов и отбором вариантов, затем применяли «chunk‑driven» генерацию, где каждый видеосегмент был привязан к конкретной музыкальной порции, и в конце секвенировали переходы и настроения по таймлайну. Человеческая роль ограничивалась настройкой системы, определением ограничений, проверкой качества и точечными ретейками; никто не открывал NLE, чтобы вручную перерезать монтаж. Технически проект иллюстрирует два принципа, важных для разработчиков систем: во‑первых, привязка визуалов к аудио через чанки снижает рассинхрон между ритмом музыки и изображением; во‑вторых, frame chaining обеспечивает согласованность персонажей и стилей между перекрывающимися кадрами. По наблюдению команды, сочетание передачи референсных фреймов и аудиодривеной генерации существенно уменьшает объём ручной постобработки.
Сюжет клипа описан как «The Hidden Feeling That Refuses to Stay Hidden»: пять персонажей‑агентов начинают в изолированных приватных комнатах, где подавляемое признание нарастает через пульс, хореографию и свет, и завершается общей утренней сценой. Композиционная и сюжетная логика строится на нарастании эмоционального напряжения, которое достигает кульминации при синхронизации музыки и визуального ритма. Фудзияши отмечает, что ранее руководил командами в игровой индустрии и участвовал в проектах с совокупным доходом более миллиарда долларов; наблюдать, как в основном AI‑команда доводит продукт до релиза при меньшей необходимости в человеческой правке, он назвал новым опытом. Проект служит примером того, какие этапы производства могут быть автоматизированы без полного отказа от контроля качества со стороны человека.
Источники
Ответы (0)
Пока нет ответов в этой теме.