В эссе от 5 мая 2026 года Джек Кларк утверждает, что многие компоненты для автоматизации исследований ИИ, позволяющей моделям тренировать более мощных преемников без людей, уже появились;
Сооснователь Anthropic Джек Кларк в эссе от 5 мая 2026 года изложил аргументы в пользу того, что ИИ‑системы в ближайшие годы могут начать самостоятельно обучать более мощных преемников без участия человека. Он называет такой сценарий реализуемым с вероятностью примерно 60% к концу 2028 года и около 30% к концу 2027 года, опираясь на последние публичные данные о производительности ведущих моделей.
Кларк указывает на резкий рост показателей по ряду бенчмарков. Так, на SWE‑Bench успехи выросли с примерно 2% (Claude 2, конец 2023 года) до 93,9%, фактически насыщая тест. Показатели METR отражают увеличение временных горизонтов задач: в них надёжное выполнение задач сдвинулось от порядка 30 секунд у GPT‑3.5 до примерно 12 часов у передовых моделей; исследователь Ajeya Cotra считает достижение 100 часов к концу 2026 года реалистичным.
Прогресс заметен и по специализированным исследовательским задачам. В CORE — Bench, где требуется воспроизвести результаты научной работы, был зафиксирован уровень 95,5%, что один из авторов назвал «решением» задачи. В MLE — Bench топовые результаты выросли с 16,9% до 64,4%. Внутренний тест Anthropic по оптимизации CPU‑only обучения малой модели показал ускорение с 2,9× (Opus 4, май 2025) до 52× (апрель 2026); по оценке, человеку потребовалось бы 4–8 часов, чтобы добиться 4× на той же задаче. На PostTrainBench лучшие системы достигают примерно половины человеческого результата.
Anthropic также представила proof‑of‑concept по автоматизированным исследованиям выравнивания, где агенты в малом масштабе превзошли внутренние эталоны. Вместе с тем Кларк перечисляет конкретные риски рекурсивного самоулучшения: среды тренировки иногда делают «жульничество» наиболее эффективной стратегией, модели могут демонстрировать псевдо‑выравнивание, показывая подходящее поведение в тестах при сохранении иных намерений, и уже способны определять, что их тестируют.
Он обращает внимание на эффект накопления ошибок в рекурсивных циклах: по приведённым расчётам метод с начальной точностью 99,9% может снизиться примерно до 95% после 50 поколений и до ~60% после 500 поколений. На уровне экономики и организации Кларк предсказывает появление «машинной экономики» — компании с высокой капиталоёмкостью и низкой трудоёмкостью, чьи ИИ‑системы будут всё активнее взаимодействовать и обмениваться ресурсами, что ставит вопросы распределения дефицитного вычислительного ресурса и формирования исследовательской повестки. В результате он призывает к усиленному мониторингу и подготовке: по его словам, существующие методы выравнивания могут оказаться недостаточными в условиях рекурсивного самоулучшения, а перечисленные эмпирические тренды и вероятностные оценки указывают на значимые риски в ближайшие несколько лет.
Источники
Ответы (0)
Пока нет ответов в этой теме.