
Anyscale выпустила новый Agent Skill /anyscale — workload-llm-post-training, который автоматически подбирает подходы пост‑тренинга и генерирует готовые конфигурации для запуска LLaMA‑стеков. Навык принимает на вход базовую модель, датасет, цель оптимизации и целевую аппаратную платформу и формирует стандартизованные артефакты для стеков Factory, SkyRL или Ray Train, упакованные для запуска как Anyscale Jobs-это упрощает переход от исследования к полноценным прогону на целевом железе. Инструмент предлагает выбор между основными стратегиями пост‑тренинга: supervised fine‑tuning (SFT) и continued pre‑training (CPT); методы оптимизации предпочтений — DPO, KTO, ORPO и SimPO; классический RLHF с PPO; а также подходы с программно верифицируемыми наградами (RLVR) — GRPO и DAPO. Навык формирует конфигурации, учитывая специфику выбранной методики, стек обучения и требования к оркестрации.
В описании продукта авторы напоминают историю развития пост‑тренинга: ранние успехи InstructGPT и ChatGPT сделали привычным сочетание SFT и RLHF; затем появились более простые в эксплуатации методы оптимизации предпочтений; а успехи DeepSeek — R1 продвинули RLVR‑подходы, где награда вычисляется через проверку корректности (тесты, исполнение SQL и т. п.). Это объясняет текущее разнообразие методик, между которыми приходится выбирать инженерным командам.
Anyscale подчёркивает инженерные сложности: экосистема RL‑библиотек для LLM сильно фрагментирована, и выбор стека зависит не только от алгоритма (PPO против GRPO), но и от абстракций генератора и среды, бэкенда обучения, движка инференса, поддержки асинхронных rollout'ов, синхронизации весов и модели оркестрации. В качестве примеров перечислены TRL, verl, OpenRLHF, RAGEN, NeMo‑RL, ROLL, AReaL, Verifiers, SkyRL, slime и другие.
Пример практического планирования ресурсов: для плотной 7B‑модели в bf16 около 14 ГБ памяти занимает одна копия весов. Три соседних экземпляра — политика, замороженная референс‑модель и движок для rollout'ов (например, vLLM) — формируют «пол» памяти порядка ~42 ГБ ещё до учёта optimizer state, активаций, KV‑кэша и накладных расходов фреймворка. Для MoE‑моделей объём весов зависит от общего числа параметров даже при частичном активации экспертов, что дополнительно усложняет расчёт ресурсов. По замыслу разработчиков, /anyscale упрощает предварительную проработку методологии, выбор фреймворка и планирование ресурсов, уменьшая риск переписывания пайплайна на середине проекта. Навык доступен как часть набора Anyscale Agent Skills; текст анонса опубликован 14 мая 2026 года автором Kunling Geng и готовит артефакты для запуска через Anyscale Jobs.
Источники
Ответы (0)
Пока нет ответов в этой теме.