
Компания Amazon Web Services официально объявила о доступности новой мультимодальной нейросети NVIDIA Nemotron 3 Nano Omni на платформе Amazon SageMaker JumpStart с первого дня ее глобального релиза. Эта открытая большая языковая модель, доступная для коммерческого использования по лицензии NVIDIA Open Model Agreement, способна одновременно обрабатывать видео, аудио, изображения и текст в рамках одного логического вывода, генерируя текстовые ответы. Интеграция через SageMaker JumpStart предоставляет корпоративным разработчикам возможность развертывания фундаментальной модели в один клик с использованием оптимизированных контейнеров для инференса, что избавляет от необходимости управлять базовой инфраструктурой или настраивать фреймворки обслуживания.
Архитектурно новая модель построена на базе гибридной структуры Mamba2 Transformer с использованием парадигмы смеси экспертов. Общий объем нейросети составляет 30 миллиардов параметров, однако благодаря оптимизированной архитектуре при каждом конкретном запросе активируются лишь 3 миллиарда из них. Эта единая система объединяет три ключевых компонента: языковую основу Nemotron 3 Nano LLM, визуальный кодировщик CRADIO v4-H для распознавания изображений и видео, а также речевой кодировщик Parakeet для транскрипции и понимания аудио. Нейросеть доступна в формате точности FP8, что обеспечивает оптимальный баланс между скоростью работы и эффективностью вычислений при использовании мощных графических процессоров, для которых требуются квоты на инстансы уровня ml.p4d.24xlarge или ml.p5.48xlarge.
Технические характеристики Nemotron 3 Nano Omni устанавливают строгие рамки и широкие возможности для работы с входными данными. Модель поддерживает внушительное контекстное окно размером в 131 тысячу токенов и предлагает продвинутые функции генерации, включая цепочки рассуждений, вызов внешних инструментов, форматирование вывода в JSON и создание транскрипций с временными метками на уровне отдельных слов. Система принимает видео в формате MP4 длительностью до двух минут и ограничением до 256 кадров, аудиофайлы WAV и MP3 продолжительностью до одного часа с частотой дискретизации от 8 кГц, а также стандартные изображения JPEG и RGB PNG.
На современном рынке программного обеспечения рабочие процессы автономных ИИ-агентов по своей природе глубоко мультимодальны. Ранее разработчикам приходилось объединять разрозненные узкоспециализированные модели для компьютерного зрения, распознавания речи и анализа текста. Такой подход приводил к увеличению задержек из-за множественных циклов вывода, усложнению оркестрации, фрагментации контекста и повышению вероятности системных сбоев. Появление Nemotron 3 Nano Omni решает эту проблему, выполняя роль единого субагента мультимодального восприятия. Искусственный интеллект способен за один такт проанализировать многокомпонентный запрос, заменяя разрозненные стеки моделей и сводя издержки на синхронизацию к одному прямому вызову.
Мультимодальные возможности делают нейросеть гибким инструментом для решения широкого спектра корпоративных задач, в частности, для обеспечения работы агентов, взаимодействующих с графическими интерфейсами. Модель считывает информацию с экранов, понимает изменения состояния интерфейса с течением времени и проверяет результаты действий, что применимо в дашбордах управления инцидентами, автоматизации браузеров и рабочих процессах электронной почты. В сфере обработки документации ИИ интерпретирует смешанные медиаданные, диаграммы и таблицы, помогая в анализе контрактов и финансовых отчетов.
Источники
Ответы (0)
Пока нет ответов в этой теме.