
Второго апреля 2026 года подразделение Google DeepMind официально представило на платформе Hugging Face новое поколение мультимодальных нейросетей Gemma 4. Данная линейка распространяется под полностью открытой лицензией Apache 2 и предназначена для широкого спектра задач, включая локальную работу непосредственно на периферийных устройствах. Разработчики обеспечили глубокую интеграцию архитектуры с популярными библиотеками и движками вывода, такими как transformers, llama.cpp, MLX, WebGPU и Rust. Сообщество Hugging Face активно участвовало в тестировании предварительных версий, что позволяет энтузиастам и инженерам сразу использовать эти инструменты для создания автономных агентов без необходимости сложных первоначальных настроек среды.
Представленная архитектура масштабируется через четыре основные конфигурации, каждая из которых доступна в базовой версии и в варианте с инструктивным дообучением. Младшая модель Gemma 4 E2B оперирует 2,3 миллиарда эффективных параметров, которые возрастают до 5,1 миллиарда при учете эмбеддингов, и поддерживает контекстное окно размером 128 тысяч токенов. Модель E4B использует 4,5 миллиарда эффективных параметров, что расширяется до 8 миллиардов с учетом эмбеддингов, при аналогичном лимите контекста. Для более требовательных серверных вычислений предлагается плотная модель размером 31 миллиард параметров и модель на базе архитектуры Mixture — of-Experts общим объемом 26 миллиардов параметров, из которых при каждом запросе активируются только 4 миллиарда.
Мультимодальные возможности семейства включают обработку текстовых и визуальных данных с последующей генерацией текстовых ответов, при этом младшие версии E2B и E4B дополнительно поддерживают распознавание аудио с помощью встроенного конформера формата USM. Визуальный энкодер претерпел существенные улучшения по сравнению с предыдущим поколением: теперь он автоматически сохраняет исходное соотношение сторон изображений и использует многомерное позиционное кодирование. Разработчики получили возможность тонко настраивать лимит подаваемых визуальных токенов, выбирая из фиксированных бюджетов в 70, 140, 280, 560 или 1120 единиц, что позволяет находить идеальный баланс между скоростью работы, потреблением оперативной памяти и итоговым качеством генерации.
Для эффективной обработки длинных контекстов и сложных агентных сценариев Gemma 4 задействует чередование локальных слоев внимания со скользящим окном и глобальных слоев с полным контекстом. В компактных моделях размер скользящего окна составляет 512 токенов, тогда как в более крупных версиях этот показатель увеличен до 1024 токенов. Этот механизм органично дополняется двойной конфигурацией роторного позиционного кодирования, где стандартный формат применяется для слоев со скользящим окном, а усеченный используется в глобальных слоях. В процессе оптимизации инженеры Google намеренно отказались от излишне сложных и экспериментальных функций предыдущих версий, таких как механизм Altup, сосредоточившись на стабильности вычислений.
Одной из ключевых архитектурных особенностей, перешедших из версии Gemma 3n, является система послойных эмбеддингов. В отличие от стандартных трансформеров, где базовая репрезентация токена формируется только на самом входе, новая система добавляет параллельный путь с меньшей размерностью. Она генерирует компактный вектор для каждого слоя декодера, объединяя идентификатор токена и контекстно — зависимый компонент. Это позволяет каждому слою получать специфичную для конкретного токена информацию через легкий остаточный блок именно тогда, когда она становится необходимой.
Комплекс примененных архитектурных решений позволил достичь выдающихся метрик в независимых профильных тестированиях. По результатам предварительных испытаний исключительно текстовых возможностей на соревновательной платформе LMArena, плотная модель с 31 миллиардом параметров набрала ориентировочно 1452 балла. Эффективная модель Mixture — of-Experts продемонстрировала результат в 1441 балл, задействуя лишь малую часть своих мощностей при каждом обращении. Инженеры Hugging Face отдельно отмечают, что модели показывают настолько высокое качество работы прямо из коробки, что в процессе подготовки релиза было объективно сложно найти подходящие примеры для демонстрации необходимости их ручного тонкого дообучения.
Источники
Ответы (0)
Пока нет ответов в этой теме.