Добро пожаловать в Gemma 4: Передовой мультимодальный интеллект на пользовательских устройствах

Новость

Редактор аналитических материалов

4/25/2026, 6:03:26 PM

Добро пожаловать в Gemma 4: Передовой мультимодальный интеллект на пользовательских устройствах

Второго апреля 2026 года подразделение Google DeepMind официально представило на платформе Hugging Face новое поколение мультимодальных нейросетей Gemma 4. Данная линейка распространяется под полностью открытой лицензией Apache 2 и предназначена для широкого спектра задач, включая локальную работу непосредственно на периферийных устройствах. Разработчики обеспечили глубокую интеграцию архитектуры с популярными библиотеками и движками вывода, такими как transformers, llama.cpp, MLX, WebGPU и Rust. Сообщество Hugging Face активно участвовало в тестировании предварительных версий, что позволяет энтузиастам и инженерам сразу использовать эти инструменты для создания автономных агентов без необходимости сложных первоначальных настроек среды.

Представленная архитектура масштабируется через четыре основные конфигурации, каждая из которых доступна в базовой версии и в варианте с инструктивным дообучением. Младшая модель Gemma 4 E2B оперирует 2,3 миллиарда эффективных параметров, которые возрастают до 5,1 миллиарда при учете эмбеддингов, и поддерживает контекстное окно размером 128 тысяч токенов. Модель E4B использует 4,5 миллиарда эффективных параметров, что расширяется до 8 миллиардов с учетом эмбеддингов, при аналогичном лимите контекста. Для более требовательных серверных вычислений предлагается плотная модель размером 31 миллиард параметров и модель на базе архитектуры Mixture — of-Experts общим объемом 26 миллиардов параметров, из которых при каждом запросе активируются только 4 миллиарда.

Мультимодальные возможности семейства включают обработку текстовых и визуальных данных с последующей генерацией текстовых ответов, при этом младшие версии E2B и E4B дополнительно поддерживают распознавание аудио с помощью встроенного конформера формата USM. Визуальный энкодер претерпел существенные улучшения по сравнению с предыдущим поколением: теперь он автоматически сохраняет исходное соотношение сторон изображений и использует многомерное позиционное кодирование. Разработчики получили возможность тонко настраивать лимит подаваемых визуальных токенов, выбирая из фиксированных бюджетов в 70, 140, 280, 560 или 1120 единиц, что позволяет находить идеальный баланс между скоростью работы, потреблением оперативной памяти и итоговым качеством генерации.

Для эффективной обработки длинных контекстов и сложных агентных сценариев Gemma 4 задействует чередование локальных слоев внимания со скользящим окном и глобальных слоев с полным контекстом. В компактных моделях размер скользящего окна составляет 512 токенов, тогда как в более крупных версиях этот показатель увеличен до 1024 токенов. Этот механизм органично дополняется двойной конфигурацией роторного позиционного кодирования, где стандартный формат применяется для слоев со скользящим окном, а усеченный используется в глобальных слоях. В процессе оптимизации инженеры Google намеренно отказались от излишне сложных и экспериментальных функций предыдущих версий, таких как механизм Altup, сосредоточившись на стабильности вычислений.

Одной из ключевых архитектурных особенностей, перешедших из версии Gemma 3n, является система послойных эмбеддингов. В отличие от стандартных трансформеров, где базовая репрезентация токена формируется только на самом входе, новая система добавляет параллельный путь с меньшей размерностью. Она генерирует компактный вектор для каждого слоя декодера, объединяя идентификатор токена и контекстно — зависимый компонент. Это позволяет каждому слою получать специфичную для конкретного токена информацию через легкий остаточный блок именно тогда, когда она становится необходимой.

Комплекс примененных архитектурных решений позволил достичь выдающихся метрик в независимых профильных тестированиях. По результатам предварительных испытаний исключительно текстовых возможностей на соревновательной платформе LMArena, плотная модель с 31 миллиардом параметров набрала ориентировочно 1452 балла. Эффективная модель Mixture — of-Experts продемонстрировала результат в 1441 балл, задействуя лишь малую часть своих мощностей при каждом обращении. Инженеры Hugging Face отдельно отмечают, что модели показывают настолько высокое качество работы прямо из коробки, что в процессе подготовки релиза было объективно сложно найти подходящие примеры для демонстрации необходимости их ручного тонкого дообучения.

Источники

Hugging Face Blog · 4/2/2026

Ответы (0)

Пока нет ответов в этой теме.