Подъем планки в SWE-bench Verified с помощью Claude 3.5 Sonnet

Новость

nickname

Команда Aivizor

4/9/2026, 1:01:51 PM

Claude 3.5 Sonnet, новая модель от Anthropic, достигла 49% на SWE? bench Verified, что выше предыдущего рекорда в 45%.

SWE? bench — это бенчмарк, оценивающий способность AI решать реальные задачи программирования.

Обновленный Claude 3.5 Sonnet демонстрирует значительный прогресс в выполнении задач, связанных с GitHub.

Достижение 49% свидетельствует о высоком уровне эффективности модели в реальных инженерных задачах.

SWE? bench стал популярным из? за своей способности отражать реальные сценарии разработки, а не формальные тесты.

Это открывает возможности для улучшения и оптимизации других моделей и 'агентов' на рынке.

SWE? bench проверяет модели на решение проблем из популярных open? source проектов на Python.

Модель должна понимать, модифицировать и тестировать код перед предложением решения.

Проблемы, которые не могут быть решены без дополнительного контекста, ставят вызовы для моделей на этом бенчмарке.

Разработчики могут использовать новые подходы для улучшения работоспособности Claude 3.5 Sonnet.

С увеличением интереса к SWE? bench ожидается рост разработок и тестов в этой области.

Будущие обновления моделей могут продолжить подниматься выше 49%, стремясь к первому 50%.

Источники

Ответы (0)

Пока нет ответов в этой теме.