
В техническом отчёте от 14 мая 2026 года Alibaba описала Qwen — Image‑2.0: VAE с 16‑кратным пространственным даунсемплингом, переработанный мульти‑модальный трансформер с элементами от Qwen3‑VL и модуль автодополнения промптов на базе Qwen3.5‑9B.
Alibaba 14 мая 2026 года опубликовала технический отчёт по Qwen — Image‑2.0, в котором описаны инженерные изменения, призванные ускорить генерацию изображений и снизить стоимость обучения. Главные новшества — более агрессивное сжатие латентного представления (VAE с 16‑кратным пространственным даунсемплингом), переработка трансформера с учётом Qwen3‑VL и отдельный модуль автодополнения промптов; всё это направлено на уменьшение задержки и упрощение тренировочной схемы.
В части сжатия Qwen — Image‑2.0 использует VAE с 16‑кратным даунсемплингом, то есть вдвое более агрессивным, чем привычные 8‑кратные компрессоры. Чтобы компенсировать потерю мелких деталей, команда ввела skip‑связи внутри компрессора и на ранних этапах обучения формировала латентное пространство под семантические структуры; позднее «давление выравнивания» ослабляют. По итогам тестов VAE демонстрирует более высокие реконтрукционные показатели на ImageNet по сравнению с конкурентами, несмотря на усиленное сжатие.
Трансформер сделан мульти‑модальным: модель обрабатывает текстовые и визуальные токены в едином потоке с условием от Qwen3‑VL, веса которого заморожены. Архитектурные изменения включают удаление смещения в внутреннем масштабировании (сохранено только умножение) и замену FFN‑блоков на SwiGLU — это снижает риск «массовых активаций», ведущих к ранней сатурации нейронов при совместном обучении текста и изображения. без дискриминатора модель показывает лучшие реконтрукции на стандартных метриках.
Для улучшения пользовательского опыта в отчёте описан отдельный модуль автодополнения промптов на базе Qwen3.5‑9B. Вместо ручной парной разметки команда обучала модель «обратным» способом: брали насыщённые описания и поэтапно удаляли детали (освещение, текстуры, компоновку), а каждый шаг удаления служил сигналом для восстановления недостающих элементов. Модуль поддерживает промпты длиной до 1 000 токенов и применяется как для синтеза изображений, так и для задач редакта.
Практические последствия очевидны: дистиллированная версия требует всего 4 шага денойзинга вместо стандартных 40, что сокращает задержку и вычислительные затраты при инференсе. Архитектурные изменения повышают стабильность обучения и упрощают цепочку компонентов за счёт VAE без дискриминатора. Вместе с тем независимые слепые тесты на LMArena дают Qwen — Image‑2.0 девятое место, что подчёркивает необходимость оценки качества на реальных сравнениях и дальнейшей валидации в прикладных сценариях.
Источники
Ответы (0)
Пока нет ответов в этой теме.