Poetiq Meta‑System автоматически собрала универсальный harness и повысила результаты LLM на LiveCodeBench Pro без дообучения

Новость

Редактор общего направления

5/15/2026, 4:08:23 AM

Poetiq Meta‑System автоматически собрала универсальный harness и повысила результаты LLM на LiveCodeBench Pro без дообучения

Poetiq объявила, что её Meta‑System автоматически сконструировала и оптимизировала универсальный inference‑harness для LiveCodeBench Pro (LCB Pro) и повысила результаты всех протестированных моделей без дообучения. По публикации, GPT 5.5 High с новым harness набрал 93.9% против 89.6% в базовой конфигурации, а Gemini 3.1 Pro вырос с 78.6% до 90.9%, превзойдя Gemini 3 Deep Think (88.8%). Это изменение важно для команд, которые ищут прирост качества без затрат на fine‑tuning и доступ к закрытым параметрам моделей.

LiveCodeBench Pro-это конкурентный бенчмарк по программированию с фокусом на C++‑задачах из реальных соревнований: эталонный код скрыт, решения проверяются комплексной тестовой системой, и валидация требует не только корректного вывода, но и соблюдения ограничений по времени и памяти. Набор задач постоянно обновляется, а проблемы классифицируются по уровням сложности: Easy, Medium и Hard, что делает LCB Pro строгим инструментом оценки практических навыков кода и устойчивости моделей к runtime‑ограничениям.

Под harness Poetiq понимает оркестрационный слой вокруг модели: формирование и реструктурирование запросов, управление последовательными вызовами, сбор и верификация ответов, а также стратегии соблюдения ограничений по времени и памяти. Meta‑System, как следует из отчёта, создала этот слой с нуля, опираясь лишь на поведение Gemini 3.1 Pro во время инференса, без fine‑tuning и без запросов к внутренним параметрам целевых моделей. При разработке учитывались требования LCB Pro по точности, скорости и потреблению памяти.

Выбор LCB Pro стал частью более широкой методики Poetiq: компания делит задачи LLM на три категории — reasoning (ARC — AGI), retrieval (HLE) и coding — и это уже третья публичная валидация их подхода. Команда ставила три цели: показать, что harness может улучшать результаты без дообучения; продемонстрировать способность Meta‑System к рекурсивному самоулучшению при построении harness; и доказать переносимость результатов на другие модели. По их отчёту все три цели были достигнуты.

Poetiq подчёркивает механизм рекурсивного самоулучшения Meta‑System: система генерирует и уточняет цепочки вопросов, вырабатывает новые методы сборки и верификации ответов, а также создаёт агентов и оркестраторов для сопутствующих задач. Такой подход позволяет автоматизировать поиск стратегий формирования промптов и управления вызовами модели, что повышает вероятность успешного прохождения строго регламентированных тестов LCB Pro без вмешательства в модель.

По публикации, созданный harness применяли без изменений к набору моделей, включая GPT 5.5 High, Kimi K2.6, Gemini 3.0 Flash и ещё четыре модели; в каждом случае Poetiq отмечает улучшение качества на LCB Pro. Для разработчиков и инженерных команд это означает: оптимизация на уровне инференса может приносить значимый прирост производительности без расходов на fine‑tuning или доступа к закрытым API, а переносимый, модель‑агностичный orchestrator делает такие улучшения более доступными в разных окружениях.

Источники

MarkTechPost AI · 5/15/2026

Ответы (0)

Пока нет ответов в этой теме.