Команда безопасности Firefox использовала Anthropic Claude Mythos Preview в новом агентном тестовом пайплайне и до релиза обнаружила и исправила 271 ранее неизвестную уязвимость в выпуске Firefox 150, включая ошибки возрастом до 20 лет. Это стало частью рекордного всплеска — в апреле Mozilla закрыла 423 проблемы безопасности — и укрепляет надёжность релиза для пользователей и разработчиков.
Пайплайн даёт модели не только сигнализировать о подозрении, но и автоматически конструировать и запускать тест‑кейсы для проверки гипотез об ошибках. Первые эксперименты проводились вручную на Claude Opus 4.6 в небольших масштабах, после чего систему развернули по множеству виртуальных машин: каждая инстанция параллельно проверяла отдельный файл кода. Параллелизация вместе со встроенной дедупликацией, приоритизацией находок и трекингом исправлений позволила быстро отфильтровывать дубликаты и отслеживать фикс до релиза.
По источникам находок, помимо 271 ошибки в Firefox 150, примерно треть из оставшихся 111 внутренних находок также пришла от запусков Mythos; оставшиеся две трети получили благодаря той же инфраструктуре с другими моделями и традиционным методам тестирования, таким как фуззинг. Всего 41 уязвимость поступила извне от сторонних отчётов. Предыдущие попытки анализа кода в «read‑only» режиме на GPT‑4 и Claude Sonnet 3.5 давали слишком много ложных срабатываний, тогда как агентные системы с самопроверяющимися тестами сократили шум и сэкономили время инженеров.
В числе подтверждённых примеров — пятнадцатилетняя ошибка в элементе label для форм, двадцатилетняя уязвимость в XSLT, несколько путей обхода песочницы и переполнение внутреннего счётчика при обработке HTML‑таблицы с более чем 65 535 строками. Также была показана возможность обхода RLBox — дополнительной песочницы для сторонних библиотек. Попытки эксплоита через Prototype Pollution не сработали благодаря ранее принятому архитектурному решению, что подчеркнуло роль существующих защит в снижении риска.
Mozilla намерена ввести автоматическую проверку каждого нового куска кода перед коммитом, опираясь на этот пайплайн, чтобы быстрее верифицировать изменения и поставлять готовые тесты для воспроизведения ошибок. Для разработчиков это означает более верифицированные отчёты и наборы тестов, но при этом важно помнить: многие найденные слабости сами по себе не дают полного эксплоита и требуют цепочек уязвимостей, поэтому ручная оценка, приоритизация и корректный трекинг остаются критичными.
Источники
Ответы (0)
Пока нет ответов в этой теме.