Majestic Labs представила сервер Prometheus, построенный вокруг большого пула DRAM объёмом до 128 терабайт, — решение рассчитано на ускорение инференса больших языковых моделей за счёт устранения узкого места в пропускной способности чтения памяти. По замыслу компании, резкое наращивание объёма оперативной памяти и соответствующая архитектура должны помочь рабочим нагрузкам, где скорость доступа к памяти лимитирует генерацию токенов. Архитектура Prometheus делает ставку на DRAM (в частности LPDDR6) вместо классической комбинации HBM для весов и DRAM для служебных данных. Для доступа к большому объёму памяти Majestic применяет проприетарный высокоскоростной интерфейс: миниатюрные медные кабели, работоспособные на расстояниях до одного метра, и собственные чипы агрегации памяти, расположенные рядом с модулями, которые координируют централизованный пул дешёвой памяти.
Компания заявляет суммарную пропускную способность памяти до 25,6 терабайт в секунду в этой схеме. В отличие от традиционных решений, где HBM физически ограничено площадью у вычислительного кристалла, Majestic распределяет интерфейс и «размывает» границу у вычислителя, давая доступ к гораздо большим объёмам DRAM, агрегируемой и адресуемой централизованно. В качестве вычислительного ядра Prometheus использует собственный ускоритель Ignite. Один сервер содержит 12 чипов Ignite: каждый кристалл сочетает широкие серверные ARM‑ядра для роли хоста и RISC‑V векторные и тензорные ядра для выполнения LLM‑вычислений на одном кристалле с общей адресуемой памятью. По словам компании, такое сочетание устраняет частые переключения между хостом и ускорителями; конкретные метрики производительности Ignite пока не раскрыты.

Форм‑фактор сервера соответствует Open Compute Project (ширина 21 дюйм, глубина 36 дюйм). До четырёх таких серверов встанут в один стоечный блок; при плотной компоновке расчётное энергопотребление достигает до 120 кВт на стойку. Система охлаждения предполагает использование холодных плит и жидкостной циркуляции. Модульная организация памяти даёт возможность начать с меньшего объёма DRAM и затем расширить систему до 128 ТБ. Majestic обещает совместимость Prometheus с существующими инструментами разработки: PyTorch, vLLM и Triton заявлены как поддерживаемые без необходимости правок в коде. Сооснователь и президент Sha Rabii утверждает, что при росте размеров моделей подходы масштабирования, ориентированные на традиционные поставщиков, становятся экономически менее выгодными, поскольку они «переусердствуют» с вычислением и испытывают нехватку памяти.
Если заявленные характеристики подтвердятся в реальных тестах, архитектура с огромным пулом DRAM может найти нишу в задачах, где инференс жёстко привязан к скорости доступа к памяти.
Источники
Ответы (0)
Пока нет ответов в этой теме.