Hugging Face представила Gemma 4 VLA: мультимодальный ИИ работает полностью локально на NVIDIA Jetson Orin Nano Super

Новость

Редактор аналитических материалов

4/23/2026, 5:20:54 AM

Hugging Face представила Gemma 4 VLA: мультимодальный ИИ работает полностью локально на NVIDIA Jetson Orin Nano Super

Hugging Face продемонстрировала мультимодальную модель Gemma 4 VLA, работающую полностью локально на NVIDIA Jetson Orin Nano Super.

Компания Hugging Face продемонстрировала работу мультимодальной языковой модели Gemma 4 VLA (Vision — Language Assistant), способной функционировать полностью локально на компактном устройстве NVIDIA Jetson Orin Nano Super. Ключевая особенность этой реализации заключается в автономном принятии моделью решения о необходимости использования веб-камеры для получения визуального контекста. Модель сама определяет, требуется ли ей увидеть окружение пользователя, чтобы дать наиболее точный ответ, без какой-либо жестко заданной логики или триггеров по ключевым словам.

Демонстрационная система работает по следующей схеме: голосовой ввод пользователя сначала обрабатывается с помощью системы распознавания речи Parakeet STT, после чего запрос поступает непосредственно в Gemma 4. Если модель определяет потребность в визуальной информации, она инициирует захват изображения с веб-камеры, интерпретирует полученные данные и формирует ответ, учитывая увиденное. Конечный ответ затем озвучивается через систему синтеза речи Kokoro TTS. В ходе демонстрации использовались аппаратные компоненты: NVIDIA Jetson Orin Nano Super с 8 ГБ оперативной памяти и стандартная веб-камера Logitech C920. Эта разработка знаменует собой значительный шаг в области периферийных вычислений и локального ИИ, показывая возможности запуска сложных мультимодальных языковых моделей на энергоэффективном и относительно небольшом устройстве.

Способность Gemma 4 функционировать на Jetson Orin Nano Super (8 ГБ) с использованием квантованных моделей Q4_K_M подчеркивает её пригодность для сценариев, где критически важна автономность и снижение зависимости от облачных сервисов. Для разработчиков это открывает новые перспективы в создании более приватных, оперативных и надежных ИИ-приложений на границе сети, минимизируя задержки и требования к пропускной способности. Локальное выполнение VLA-моделей способно кардинально изменить подход к интерактивным системам, устройствам умного дома, робототехнике и другим встраиваемым решениям, где визуальное понимание в сочетании с голосовым взаимодействием имеет ключевое значение.

Полный скрипт демонстрации, разработанный Асьером Арранцем из NVIDIA, доступен для ознакомления и воспроизведения на GitHub в репозитории Google_Gemma. Это позволяет инженерам и энтузиастам самостоятельно исследовать функциональность Gemma 4 VLA. Для развертывания решения требуется установка необходимых системных пакетов, настройка среды Python, а также рекомендуется оптимизация оперативной памяти, включающая добавление файла подкачки и остановку ресурсоемких процессов.

Процесс установки также предполагает сборку llama.cpp непосредственно на устройстве Jetson для достижения оптимальной производительности и полного контроля над модулем зрения, критически важным для VLA-демонстрации. Разработчикам предлагаются варианты дальнейшей оптимизации для систем с более ограниченными ресурсами, например, использование модели Q3-квантования вместо Q4_K_M, если 8 ГБ ОЗУ всё ещё недостаточно, хотя Q4_K_M считается оптимальным балансом между производительностью и качеством.

Источники

Hugging Face Blog · 4/22/2026

Ответы (0)

Пока нет ответов в этой теме.