
В области генеративного искусственного интеллекта диффузионные модели демонстрируют впечатляющие возможности, создавая убедительные изображения. Однако их способность к так называемой композиционной генерализации, то есть к формированию реалистичных образцов для новых, ранее не встречавшихся комбинаций условий, остается интригующей и недостаточно изученной. Данное исследование, проводимое Apple Machine Learning Research, призвано пролить свет на фундаментальные механизмы, лежащие в основе этого ключевого аспекта работы генеративных моделей.
Чтобы сделать этот механизм более конкретным, авторы исследования сосредоточились на «генерализации по длине» — способности модели генерировать изображения с большим количеством объектов, чем было представлено во время обучения. В контролируемой среде CLEVR, описанной в работе Джонсона и соавторов 2017 года, было обнаружено, что генерализация по длине достигается лишь в некоторых случаях, но не во всех. Это наблюдение указывает на то, что модели лишь иногда усваивают базовую композиционную структуру, что создает вызовы для их универсальности.
Ключевым вкладом работы является исследование локальности как структурного механизма композиционной генерализации. В то время как предыдущие исследования предлагали локальность оценок в качестве механизма для повышения креативности в безусловных диффузионных моделях, они не затрагивали гибкое кондиционирование или саму композиционную генерализацию. В данном исследовании была доказана точная эквивалентность между специфической композиционной структурой, известной как условная проективная композиция, и оценками с разреженными зависимостями как от пикселей, так и от кондиционеров, что получило название локальных условных оценок. Эта теория также распространяется на композиции концепций, таких как стиль и содержание, в пространстве признаков.
Эмпирическая валидация теории была проведена на моделях CLEVR. Результаты подтвердили, что те модели, которые успешно справлялись с генерализацией по длине, демонстрировали локальные условные оценки, в то время как модели, потерпевшие неудачу, таких оценок не имели. Более того, исследователи продемонстрировали, что целенаправленное вмешательство, явно обеспечивающее локальные условные оценки, позволяло моделям, ранее не справлявшимся с задачей, успешно выполнять генерализацию по длине. Это указывает на причинно — следственную связь между локальностью оценок и способностью к композиционной генерализации.
В рамках исследования была также проанализирована крупная диффузионная модель SDXL. Было обнаружено, что в пиксельном пространстве SDXL присутствует пространственная локальность, однако условная локальность по большей части отсутствует. Тем не менее, удалось найти количественные доказательства существования локальных условных оценок в изученном моделью пространстве признаков. Эти выводы имеют важное значение для понимания того, как более сложные модели обрабатывают и комбинируют информацию, а также для дальнейшего улучшения их возможностей.
Таким образом, работа Apple Machine Learning Research, представленная Арвеном Брэдли, существенно расширяет наше понимание принципов композиционной генерализации в диффузионных моделях. Выявление локальных механизмов и их связи с условными оценками открывает новые пути для разработки более надежных и универсальных генеративных моделей. Такие модели смогут не только более эффективно обрабатывать новые и сложные запросы, выходящие за рамки обучающих данных, но и способствовать созданию ИИ-систем, способных к более глубокому и гибкому пониманию мира, что является значительным шагом вперед в развитии этой технологии.
Источники
Ответы (0)
Пока нет ответов в этой теме.