
На NeurIPS 2025 исследовательская группа MIT (Yizhou Liu, Ziming Liu и Jeff Gore) представила работу, в которой связываются эмпирически наблюдаемые «Neural Scaling Laws» с внутренней геометрией представлений моделей. Авторы отмечают, что устойчивое улучшение качества при увеличении параметров, объёма данных или вычислений — один из самых последовательных результатов в исследованиях ИИ, и предлагают объяснение, почему это происходит на механистическом уровне.
Ключевая идея в работе — явление суперпозиции: языковые модели вынуждены упаковывать десятки тысяч токенов и абстрактных понятий в векторное пространство с ограниченным числом измерений. Вместо того чтобы выделять для каждого концепта отдельное измерение, модели хранят множество концептов одновременно в одних и тех же измерениях, так что их вектора частично накладываются. Раньше многие объяснения предполагали «слабую суперпозицию», где только частые концепты представлены чисто, а остальные теряются; MIT-подход ставит под вопрос такое упрощение.
Чтобы сравнить два возможных режима поведения, авторы построили сильно упрощённую тренируемую модель с регулируемой степенью наложения концептов. В режиме «слабой суперпозиции» ошибка предсказания возникает главным образом из-за редких концептов, которые модель не хранит, и тогда масштабирование зависит от распределения концептов в данных («power law in, power law out»). В режиме «сильной суперпозиции» все концепты хранятся одновременно, а ошибка возникает из-за шума перекрывающихся векторов; в этом случае возникает простая геометрическая зависимость — при увеличении ширины модели ошибка уменьшается примерно пропорционально 1/m, где м — ширина.
Авторы проверили свою теорию на реальных открытых моделях разных размеров — OPT, GPT-2, Qwen2.5 и Pythia — в диапазоне от порядка 100 миллионов до примерно 70 миллиардов параметров. Они наблюдали, что все токены представлены, вектора действительно перекрываются, и сила перекрытий убывает с ростом ширины в точном соотношении, предсказанном моделью (приближённо 1/m). Измеренный показатель масштабирования получился около 0.91; аналогичный показатель на данных Chinchilla равен примерно 0.88, что согласуется с выводами авторов о работе в режиме сильной суперпозиции.
Работа имеет практические последствия: по оценке авторов, эффект от дальнейшего масштабирования должен ослабевать, когда ширина внутреннего представления достигает размера словаря и каждый токен сможет занять собственное измерение — тогда «уплотение» перестанет быть источником ошибки и закон мощности изменится. Исследование также указывает, что архитектуры, способствующие суперпозиции (в статье приводится пример — nGPT от NVIDIA, который стягивает внутренние вектора на единичную сферу), могут давать лучшее качество при том же размере, но это усиливает накладную по интерпретируемости: чем сильнее наложение концептов, тем сложнее проследить, какие представления отвечает за конкретное поведение модели, что имеет значение для механистической интерпретируемости и исследований безопасности.
Источники
Ответы (0)
Пока нет ответов в этой теме.