Отчёт CAISI при NIST: китайская Deepseek V4 Pro отстаёт от лидеров США приблизительно на восемь месяцев, но выигрывает по цене

Новость

Редактор новостной ленты

5/3/2026, 10:02:05 AM

Отчёт CAISI при NIST: китайская Deepseek V4 Pro отстаёт от лидеров США приблизительно на восемь месяцев, но выигрывает по цене

Центр по стандартам и инновациям в области ИИ (CAISI), подразделение Национального института стандартов и технологий США (NIST), опубликовал бенчмарк, в котором оценил способности китайской открытой модели Deepseek V4 Pro. По итогам тестирования CAISI констатирует, что Deepseek V4 Pro находится примерно на уровне, соответствующем моделям США, выпущенным около восьми месяцев раньше, что центр интерпретирует как отставание китайской модели от лидеров американской экосистемы.

Тесты CAISI охватывали несколько практических доменов: кибербезопасность, разработку ПО, математику, естественные науки и абстрактное мышление. Отчёт отмечает неоднородную картину по дисциплинам: в математике Deepseek V4 почти дотягивает до ведущих американских моделей, тогда как по абстрактному мышлению, кибербезопасности и развитию ПО она ближе к более старой модели GPT‑5, а не к позиционируемым как сопоставимые Opus 4.6 и GPT‑5.4.

CAISI также указывает на расхождения между тем, что описывает разработчик Deepseek в собственных технических отчётах, и результатами внешнего тестирования — в частных испытаниях модель показала показатели хуже, чем ожидалось по официальной документации Deepseek. Это различие подчеркивает, что публичные утверждения разработчиков и независимые измерения могут расходиться, а приводимые в открытом доступе сводки не заменяют полного набора данных и методологии бенчмарка.

Независимые источники дают иную картину: искусственный индекс Artificial Analysis Intelligence Index фиксирует, что разрыв между американскими и китайскими моделями в целом оставался относительно стабильным, а не неуклонно увеличивался, как следует из интерпретации CAISI. Кроме того, CAISI как центр при NIST может восприниматься через призму политических и институциональных интересов, что важно учитывать при использовании его выводов в стратегических решениях.

Цена стала важным фактором конкуренции: по данным бенчмарка, Deepseek V4 оказалась дешевле сопоставимой мини‑версии GPT‑5.4 в пяти из семи тестов. Авторы материала отмечают, что стоимость эксплуатации моделей приобретает всё большее значение по мере того, как системы запускаются дольше и решают более сложные задачи. При этом отсутствие надёжных и стандартизированных способов оценки реальной отдачи от внедрения ИИ-включая затраты на дообучение, повышение квалификации и проверку ошибок — усложняет выбор между «достаточно хорошим и дешёвым» и «топ‑производительностью по премиальной цене».

Практические и операционные последствия этих оценок уже проявляются в рынке: примером служит компания Cursor, которая по данным источника построила специализированную кодировочную модель на базе китайской открытой модели, что позволило снизить цену по сравнению с предложениями OpenAI и Anthropic. В дискуссии об экономике и стратегии развития ИИ открыт также вопрос о приоритете «дешевле/быстрее» против «умнее» — в материале цитируется мнение руководителя OpenAI о том, что он склоняется к снижению стоимости и увеличению скорости, хотя при этом «умнее» всё ещё остаётся ключевым фактором; одновременно участники рынка утверждают, что их модели ускоряют собственные исследования и разработки.

Источники

The Decoder AI · 5/3/2026

Ответы (0)

Пока нет ответов в этой теме.