Aivizor
Aivizor
СкиныКреативыСообщество
Назад
  1. Сообщество
  2. /
  3. Hugging Face

NVIDIA выпустила Nemotron‑Labs Diffusion — диффузионные языковые модели для ускоренной генерации текста

Новость
Н
Наталья Тихонова
Редактор общего направления

5/23/2026, 3:17:45 AM

NVIDIA выпустила Nemotron‑Labs Diffusion — диффузионные языковые модели для ускоренной генерации текста

NVIDIA 23 мая 2026 года выпустила семейство Nemotron‑Labs Diffusion — диффузионных языковых моделей, разработанных для ускоренной и более гибкой генерации текста. Релиз авторов Mehran Maghoumi, Yonggan Fu, Pavlo Molchanov и Khadkevich переключает акцент с традиционной построчной автогенерации на параллельное «создание и уточнение» токенов, что важно для приложений с жёсткими требованиями по задержке и для сценариев редактирования текста. Коллекция включает текстовые модели масштаба 3B, 8B и 14B, а также 8B vision‑language модель. NVIDIA выпускает как базовые варианты, так и инструкционно‑настроенные (chat) версии. Лицензирование разделено: текстовые модели распространяются под NVIDIA Nemotron Open Model License, VLM-под NVIDIA Source Code License. Вместе с моделями опубликованы код тренировки на фреймворке Megatron Bridge, детальный учебный рецепт и технический отчёт.

Ключевая архитектурная новация — поддержка трёх режимов генерации в одной модели. Первый — классический автогенеративный (слева‑на‑право). Второй — диффузионный, где модель генерирует блоки токенов параллельно и последовательно уточняет их в несколько шагов. Третий — гибридный self‑speculation: сначала генерируется несколько кандидатов через диффузию, затем автогенеративный механизм верифицирует и выбирает итог. Переключение между режимами задаётся при развертывании и требует минимальных изменений в приложении.

Автогенеративный режим остаётся устойчивым решением, но он ограничен тем, что каждый новый токен требует нового прохода модели и загрузки весов в память, что превращает задержку в операцию с оперативной памятью. Диффузионный режим и self‑speculation уменьшают этот узкий профиль: они позволяют генерировать токены параллельно, корректировать ранее сгенерированные фрагменты и тем самым снижать задержку при небольших размерах батча, включая одиночные запросы (batch=1).

Практические последствия для разработчиков и исследователей включают повышенную эффективность при низких значениях batch, встроенный механизм управления бюджетом вывода (меньше шагов уточнения — меньше вычислений) и улучшенную пригодность для задач заполнения середины текста и пост‑редактирования. Поставляемые вместе учебный рецепт, код и техотчёт упрощают воспроизведение результатов и экспериментирование как в исследовательских, так и в коммерческих проектах; в публикации также приведены ссылки на коллекцию моделей и репозиторий с кодом для дальнейшей оценки внедрения.

Источники

  1. Hugging Face Blog · 5/23/2026
0
0
0

Ответы (0)

Пока нет ответов в этой теме.

9:41