Aivizor
Aivizor
СкиныКреативыСообщество
Назад
  1. Сообщество
  2. /
  3. Alibaba

AI‑айдолы SPECTRA почти полностью срежиссировали клип «LOWKEY» с помощью Wan 2.7 и HappyHorse

Новость
Е
Елена Воронцова
Редактор новостной ленты

5/15/2026, 6:21:46 AM

Шун Фудзияши, автор и технический директор проекта SPECTRA, рассказал, как пять AI‑агентов почти автономно сгенерировали и смонтировали музыкальное видео «LOWKEY», используя Wan 2.7 для генерации кадров и HappyHorse для финального композитинга и сборки.

Пять виртуальных исполнителей проекта SPECTRA практически сами срежиссировали музыкальный клип «LOWKEY»: агенты управляли выбором кадров, ритмом сцен и переходами, доведя трек до почти готового видео при минимальном вмешательстве человека. По словам автора и технического директора Шуна Фудзияши, этот результат демонстрирует реализацию принципа «почти нулевого касания» в творческом пайплайне — важный шаг для ускорения производства и снижения ручной постобработки.

Image 4: SOL_jpeg

Стек проекта опирается на две ключевые части: Wan 2.7 для генерации видео и HappyHorse для редактирования и композитинга. Для Wan 2.7 применяли приём передачи референсных фреймов (frame chaining), который сохраняет визуальные подсказки между кадрами и уменьшает резкие визуальные дрейфы при склейках. HappyHorse использовался агентами для финальных сборок, освещения, тональных указаний и композитинга, то есть для доводки и интеграции сгенерированных материалов.

Image 5: pipeline

Агенты вели весь рабочий цикл: сначала генерировали кандидаты кадров с итерациями промптов и отбором вариантов, затем применяли «chunk‑driven» генерацию, где каждый видеосегмент был привязан к конкретной музыкальной порции, и в конце секвенировали переходы и настроения по таймлайну. Человеческая роль ограничивалась настройкой системы, определением ограничений, проверкой качества и точечными ретейками; никто не открывал NLE, чтобы вручную перерезать монтаж. Технически проект иллюстрирует два принципа, важных для разработчиков систем: во‑первых, привязка визуалов к аудио через чанки снижает рассинхрон между ритмом музыки и изображением; во‑вторых, frame chaining обеспечивает согласованность персонажей и стилей между перекрывающимися кадрами. По наблюдению команды, сочетание передачи референсных фреймов и аудиодривеной генерации существенно уменьшает объём ручной постобработки.

Сюжет клипа описан как «The Hidden Feeling That Refuses to Stay Hidden»: пять персонажей‑агентов начинают в изолированных приватных комнатах, где подавляемое признание нарастает через пульс, хореографию и свет, и завершается общей утренней сценой. Композиционная и сюжетная логика строится на нарастании эмоционального напряжения, которое достигает кульминации при синхронизации музыки и визуального ритма. Фудзияши отмечает, что ранее руководил командами в игровой индустрии и участвовал в проектах с совокупным доходом более миллиарда долларов; наблюдать, как в основном AI‑команда доводит продукт до релиза при меньшей необходимости в человеческой правке, он назвал новым опытом. Проект служит примером того, какие этапы производства могут быть автоматизированы без полного отказа от контроля качества со стороны человека.

Источники

  1. Alibaba Cloud Blog · 5/15/2026
0
0
0

Ответы (0)

Пока нет ответов в этой теме.

9:41