Архитектура раннего слияния: как Falcon Perception меняет подход к машинному зрению

Разбор

Исследовательская группа TII представила Falcon Perception и Falcon OCR-новые компактные модели, объединяющие обработку текста и изображений в едином трансформере с гибридным вниманием.

Анна Соколова

Редактор новостной ленты

4/25/2026, 12:24:22 PM

Архитектура раннего слияния: как Falcon Perception меняет подход к машинному зрению

Первого апреля 2026 года в блоге платформы Hugging Face под авторством учетной записи tiiuae, представляющей исследовательскую группу Technology Innovation Institute (TII), был опубликован подробный технический отчет о разработке новых моделей машинного зрения. Ключевым релизом стала модель Falcon Perception — компактный трансформер раннего слияния с 0,6 миллиарда параметров, предназначенный для пространственной привязки и сегментации в режиме открытого словаря на основе запросов на естественном языке. Одновременно с ней была представлена модель Falcon OCR с 0,3 миллиарда параметров, продемонстрировавшая самую высокую пропускную способность среди всех систем оптического распознавания с открытым исходным кодом.

Появление этих архитектур стало прямым ответом на фундаментальные проблемы существующих систем визуального восприятия, которые традиционно проектируются в виде многокомпонентных конвейеров. В таких классических решениях обычно задействована замороженная базовая визуальная модель для извлечения признаков, за которой следует отдельный этап декодирования для объединения с языковыми данными, а также сторонние алгоритмы для финального сопоставления. Хотя подобный подход доказал свою относительную работоспособность в архитектурах уровня SAM 3, он неизбежно влечет за собой серьезные инженерные компромиссы.

В противовес традиционным пайплайнам архитектура Falcon Perception полностью опирается на единый авторегрессионный трансформер, который обрабатывает визуальные и текстовые данные в рамках общего пространства параметров. Вместо разделения процессов кодирования изображений и языковой генерации, модель воспринимает фрагменты исходных изображений, текстовые запросы и токены задач как единую унифицированную последовательность, начиная прямо с самого первого слоя. Этот концептуальный сдвиг позволил разработчикам отказаться от тяжелых математических надстроек, сделав задачу плотного предсказания решаемой исключительно за счет механизмов маскирования и легковесного выходного интерфейса.

Поскольку исходные данные имеют абсолютно разную структурную природу, разработчикам потребовалось создать специальный гибридный механизм внимания для их корректной совместной обработки. Пиксели изображений являются двумерными и для точного анализа требуют двунаправленного контекста, тогда как интерфейс текстовых предсказаний исторически работает строго последовательно. Внедренная гибридная маска изящно разрешает это противоречие: токены изображения применяют двунаправленное внимание ко всем остальным визуальным токенам, формируя глобальный контекст по аналогии с классическими визуальными энкодерами.

Для эффективного решения проблемы плотного восприятия, при котором на одном изображении может находиться от нуля до нескольких сотен объектов, исследователи разработали структурированный интерфейс Chain — of-Perception. Поскольку прямолинейная пошаговая генерация масок высокого разрешения требует недопустимо больших вычислительных ресурсов, процесс идентификации каждого экземпляра был строго декомпозирован на три последовательных шага. Сначала нейросеть генерирует токен координат, определяя геометрический центр объекта и разрешая неоднозначность выбора конкретной цели. Сразу за ним предсказывается токен размера, задающий пространственные границы элемента.

Формирование итоговых предсказаний осуществляется через специализированные выходные головы, которые добавляют минимальные вычислительные накладные расходы к базовому трансформеру. Головы координат и размеров используют кодирование признаков Фурье, проецируя непрерывные данные через случайную гауссову матрицу в высокоразмерное синусоидальное пространство. Этот шаг позволяет преодолеть спектральное смещение нейронных сетей и обеспечивает более точную локализацию по сравнению с простым дискретным распределением. Декодированные геометрические параметры возвращаются в общую последовательность для уточнения, после чего голова сегментации вычисляет скалярное произведение между скрытым состоянием токена и апсемплированными визуальными признаками, создавая финальную бинарную маску.

Практическая эффективность описанных решений подтверждается результатами тестирования на наборе данных SA — Co, где Falcon Perception достигла показателя Macro — F1 на уровне 68,0 балла, существенно превзойдя результат модели SAM 3, составивший 62,3 балла. В техническом отчете прозрачно отмечается главное текущее ограничение новой архитектуры — отставание в калибровке присутствия объектов, где коэффициент корреляции Мэтьюса (MCC) составил 0,64 против 0,82 у SAM 3. Для глубокого анализа причин подобных отклонений разработчики выпустили открытый диагностический бенчмарк PBench.

Источники

Hugging Face Blog · 4/1/2026

Ответы (0)

Пока нет ответов в этой теме.