Qwen3.7-Max: большая модель‑платформа для длительных автономных агентов

Новость

Редактор общего направления

5/21/2026, 11:32:59 AM

Представлена Qwen3.7-Max, проприетарная большая модель, сконструированная как «фундамент агента» для многозадачной работы: генерации и отладки кода, автоматизации рабочих процессов и выполнения длительных автономных задач на сотни — тысячи шагов.

Представлена Qwen3.7-Max, проприетарная большая модель, созданная как платформа‑агент для длительных автономных сценариев и оркестрации. Модель позиционируется для многозадачной работы — от прототипирования фронтенда до сложной многокомпонентной инженерии, а также для автоматизации офисных процессов и продуктивности. Это важно для разработчиков, создающих мульти‑агентные конвейеры и долгосрочные автоматизации. В демонстрации Qwen3.7-Max выдержал 35‑часовой полностью автономный прогон по оптимизации ядра с более чем 1 000 вызовов инструментов. Развёртывание и вызов модели через API планируется сделать доступными в Model Studio в ближайшее время.

Для оценки возможностей разработчики использовали широкий набор бенчмарков. Terminal‑Bench 2.0 запускался с тайм‑аутом 5 часов, на конфигурации 12 CPU/24 GB RAM с параметрами temp=1.0, top_p=0.95, top_k=20, max_tokens=80K и контекстом 256K; результаты усредняли по пяти запускам. SWE‑Bench Series применял внутренний агентный скелет с контекстом 200K, а NL2Repo прогоняли с отключёнными Bash‑командами, которые обращаются к конкретному репозиторию.

Фронтенд‑тест QwenWebDev представлен как билингвальный бенч из семи категорий с мультимодальным жюри; QwenClawBench доступен как открытый репозиторий. Для продуктивности и навыков подготовлены отдельные наборы: CoWorkBench охватывает длительные задачи в области CS, финансов, права и медицины, а SkillsBench оценивали через OpenCode на 78 задачах (без 9 задач, зависящих от внешних API). Инструментальная метрика MCP‑Mark использует GitHub MCP v0.30.3; ответы Playwright усекались на 32K токенов. MCP‑Atlas и VITA‑Bench оценивались с привлечением внешних judger‑моделей — gemini‑2.5‑pro и claude‑4.5‑sonnet соответственно.

Kernel Bench L3 измерял ускорение относительно PyTorch eager и долю задач, где модель быстрее torch.compile, на наборе из 50 задач: каждый тест запускали в изолированном Docker с одной GPU H100 80GB; доступ в Интернет ограничивали кодовой базой CUTLASS и официальной документацией CUDA. Сеансы лимитировались 500 вызовами инструментов с досрочной остановкой после 100 неулучшающих ходов; для обнаружения потенциального «взлома» использовали GPT‑5.4 (xhigh), а для замеров времени — CUPTI.

QwenWorldBench описан как внутренний тест LLM‑моделей мира по семи доменам (Terminal, SWE, MCP, Search, OS, Android, Web) с открытой рубрикой на пять измерений. В документации рекомендован системный промпт для усиленного рассуждения («Reasoning effort is set to xhigh...»), что подчёркивает акцент на долгих сценариях, интеграции инструментов и переносимости агента между существующими фреймворками.

Источники

Alibaba Cloud Blog · 5/21/2026

Ответы (0)

Пока нет ответов в этой теме.