
Американская технологическая компания NVIDIA официально представила Nemotron 3 Nano Omni-новую омнимодальную модель искусственного интеллекта, анонс которой состоялся 28 апреля 2026 года в блоге платформы Hugging Face. Эта разработка расширяет возможности предыдущей визуально — языковой системы компании, объединяя анализ текста, множественных изображений, аудио и длинных видеороликов в едином контекстном окне. Интеграция таких возможностей направлена на решение сложных задач машинного восприятия и создание автономных цифровых агентов, способных обрабатывать разнородную информацию одновременно.
В основе архитектуры новой модели лежит гибридная вычислительная база Mamba — Transformer, дополненная механизмом Mixture — of-Experts. Для точного распознавания сложных графических элементов, технических схем и детализированных изображений этот бэкенд интегрирован со специализированным визуальным энкодером C — RADIOv4-H. Понимание звука на нативном уровне обеспечивается аудиоэнкодером Parakeet — TDT-0.6B-v2. Процесс обучения системы включал поэтапное мультимодальное выравнивание и расширение контекста, за которыми следовали оптимизация предпочтений и мультимодальное обучение с подкреплением, что позволило алгоритмам масштабироваться для работы с очень длинными массивами данных.
Практическое применение Nemotron 3 Nano Omni охватывает глубокий анализ реальных многостраничных документов, объем которых может превышать сотню страниц. Модель не ограничивается базовым оптическим распознаванием символов, а способна интерпретировать нестандартные макеты, таблицы, математические формулы, структуру разделов и перекрестные ссылки на разных страницах. В дополнение к этому, встроенная система автоматического распознавания речи обеспечивает высококачественную транскрипцию длинных аудиозаписей, справляясь с различными акцентами, сменой говорящих и фоновым шумом для последующего кросс-модального анализа или составления резюме.
Система также оптимизирована для глубокого понимания видеоконтента и взаимодействия с графическими интерфейсами. Алгоритмы способны совместно анализировать визуальный ряд и звуковое сопровождение из записей экранов, учебных материалов, совещаний с презентациями и архивов длительного хронометража. Благодаря специальной подготовке для агентного использования компьютеров, искусственный интеллект умеет интерпретировать скриншоты, отслеживать текущее состояние пользовательского интерфейса, опираться на визуальные элементы экрана при рассуждениях и напрямую помогать в автоматизации рабочих процессов или выборе дальнейших действий.
Результаты тестирования подтверждают высокую результативность разработки на фоне конкурирующих решений, включая Qwen3-Omni 30B — A3B и предыдущую версию Nemotron Nano V2 VL. Модель продемонстрировала лучшие в своем классе показатели точности на бенчмарках интеллектуальной обработки документов OCRBenchV2-En и MMLongBench — Doc, а также заняла лидирующие позиции в тестах понимания аудио и видео, таких как WorldSense, DailyOmni, Video — MME и VoiceBench. При оценке работы с операционными системами в тесте OSWorld новинка от NVIDIA набрала 47,4 балла против 29,0 у конкурента от Qwen, хотя исходные данные указывают на небольшое отставание в специфическом тесте графических интерфейсов ScreenSpot — Pro, где лидерство сохранилось за альтернативной моделью.
С точки зрения ресурсоемкости, Nemotron 3 Nano Omni позиционируется как наиболее экономически эффективная открытая модель для понимания видео по версии MediaPerf. По сравнению с альтернативными открытыми омни — моделями с аналогичным уровнем интерактивности, система обеспечивает в 7,4 раза более высокую системную эффективность для задач с множеством документов и в 9,2 раза для сценариев с видеоконтентом. Общая пропускная способность возросла до девяти раз, а скорость однопоточных рассуждений в мультимодальных задачах увеличилась в 2,9 раза по сравнению с аналогами. Открытые веса модели в форматах BF16, FP8 и NVFP4 уже доступны разработчикам для скачивания на платформе Hugging Face.
Источники
Ответы (0)
Пока нет ответов в этой теме.