IBM представила семейство LLM Granite 4.1, превосходящее предшественников по производительности

Новость

Редактор новостной ленты

4/29/2026, 3:21:16 PM

IBM представила семейство LLM Granite 4.1, превосходящее предшественников по производительности

Компания IBM анонсировала семейство больших языковых моделей (LLM) Granite 4.1, что знаменует собой существенный прогресс в разработке эффективных и высокопроизводительных AI-решений. Особенностью новой линейки является 8 — миллиардная instruct — модель, которая демонстрирует сопоставимую или превосходящую производительность по сравнению с предыдущими, более крупными моделями Granite 4.0 — H-Small, несмотря на использование более простой плотной архитектуры с меньшим количеством параметров. Все модели Granite 4.1 выпущены под лицензией Apache 2.0, что обеспечивает их широкую доступность для сообщества и корпоративных пользователей.

Семейство Granite 4.1 включает плотные, декодерные LLM с 3, 8 и 30 миллиардами параметров. Эти модели построены на основе архитектуры трансформера только с декодером. Ключевые архитектурные решения включают внимание с группированными запросами (Grouped Query Attention, GQA), ротационные позиционные эмбеддинги (Rotary Position Embeddings, RoPE), функции активации SwiGLU, нормализацию RMSNorm и общие входные/выходные эмбеддинги. В процессе их создания приоритет отдавался качеству данных, а не их объему, что привело к многоступенчатому конвейеру предварительного обучения на приблизительно 15 триллионах токенов.

Дальнейшая доработка моделей Granite 4.1 включала контролируемую донастройку (supervised fine-tuning) на 4,1 миллиона высококачественных, тщательно отобранных образцов. Для курирования этих данных был использован подход «LLM как судья», что позволило обеспечить исключительную точность и релевантность. В дополнение к этому, применялся многоступенчатый конвейер обучения с подкреплением (reinforcement learning) с использованием политики GRPO с функцией потерь DAPO, что систематически укрепляло производительность моделей в таких критически важных областях, как математика, кодирование, следование инструкциям и общий чат.

Предварительное обучение Granite 4.1 осуществлялось с нуля по пятифазной стратегии, где каждая фаза имела свою уникальную смесь данных и расписание скорости обучения. Первые две фазы были направлены на формирование базового понимания языка: Фаза 1 (10 триллионов токенов) использовала общую смесь данных, включающую CommonCrawl (около 59%), код (около 20%), математику (около 7%), техническую документацию (около 10,5%), многоязычные данные (около 2%) и предметно — ориентированный контент (около 1,5%). Фаза 2 (2 триллиона токенов) значительно увеличила долю данных по математике (в 5 раз) и коду (в 1,5 раза) для развития более сильных способностей к рассуждению, при этом сохраняя общее языковое покрытие.

Следующие две фазы, Фазы 3 и 4, представляли собой среднее обучение с постепенным улучшением качества данных. Фаза 3 (2 триллиона токенов) перешла к более сбалансированной, высококачественной смеси, вводя данные с цепочками рассуждений (chain — of-thought) и синтетические инструкции. Состав данных здесь включал равные доли CommonCrawl — HQ, математики и кода (по 16,67%), а также значительно увеличил присутствие длинных цепочек рассуждений (12,5%) и различных инструкций. Фаза 4 (0,5 триллиона токенов) продолжила это уточнение, фокусируя модель на данных высочайшего качества, с еще большей концентрацией CommonCrawl — HQ (40%), кода (20%) и математики (20%), а также специализированных инструкций и цепочек рассуждений.

Завершающей, пятой фазой предварительного обучения стало расширение контекста (Long Context Extension, LCE), которое позволило увеличить окно контекста с 4K до 512K токенов. Этот процесс проходил поэтапно, сначала до 32K, затем до 128K и, наконец, до 512K. На этапе расширения до 512K токенов использовалась специализированная смесь данных, состоящая из 80% книг и 20% репозиториев кода. Такая тщательная многофазная стратегия с постоянно совершенствующимся качеством данных подчеркивает, что создание высококачественных малых языковых моделей требует не только масштабирования вычислений, но и строгой курации данных на протяжении всего процесса обучения.

Выпуск Granite 4.1 отражает возрастающую тенденцию в области искусственного интеллекта, где качество данных и оптимизация архитектуры начинают превалировать над простым увеличением вычислительных ресурсов. IBM позиционирует свои новые модели как решение для компаний и разработчиков, ищущих экономичные и управляемые AI-системы, способные обеспечить высокую производительность. Достижение высокой производительности при меньшем количестве параметров означает снижение вычислительных затрат. Это делает передовые LLM более доступными для широкого круга компаний, особенно для тех, кто планирует развертывание на собственном оборудовании или в облачных средах с ограниченными ресурсами, открывая новые возможности для инноваций и применения ИИ в различных отраслях.

Источники

Hugging Face Blog · 4/29/2026

Ответы (0)

Пока нет ответов в этой теме.