Фактчекеры предупреждают: модели ИИ дают неверные ответы примерно в половине случаев

Новость

Редактор новостной ленты

5/26/2026, 12:12:11 PM

Фактчекеры предупреждают: модели ИИ дают неверные ответы примерно в половине случаев

Full Fact и профессиональные фактчекеры отмечают, что при массовом использовании чат‑ботов и ИИ‑поиска значительная доля ответов оказывается неточной.

Full Fact, действующая организация по проверке фактов, предупреждает, что современные модели искусственного интеллекта часто дают неверные ответы — проблема особенно заметна на фоне того, что почти половина американцев уже обращается к ИИ для поиска информации и генерации идей. Это важно, потому что рост доверия к автоматизированным ответам увеличивает риск распространения неточных сведений; по словам Марка Франкеля, руководителя общественных связей Full Fact, «You definitely need a human being». новости, юридические заявления и сервисы, интегрирующие ИИ, должны предусматривать обязательную человеческую проверку.

Традиционная проверка фактов остаётся в значительной степени ручным процессом: построчное обозначение спорных утверждений, проверка первоисточников, комплексная юридическая и этическая экспертиза, а также ускоренное редакционное рецензирование перед публикацией. Эти этапы направлены на установление контекста, подтверждение источников и оценку возможных правовых последствий публикации, и потому пока что не поддаются полной автоматизации. Одновременно развиваются инструменты для так называемого постфактчекинга: Full Fact создала ИИ‑системы, которые уже используются более чем в 40 странах для обработки больших объёмов данных — от постов в социальных сетях до расшифровок подкастов. Эти системы помогают автоматически выявлять и агрегировать утверждения, требующие проверки, но сами по себе они служат только первичным фильтром — окончательное вердиктирование остаётся за человеком.

Эмпирические оценки надёжности заметно различаются по методикам и задачам. С 2018 года на arXiv опубликовано почти 17 000 работ по большим языковым моделям; в марте 2025 года исследование Tow Center for Digital Journalism зафиксировало, что более 60% ответов от ИИ‑поисковых систем были неточными. Аналогично, исследование BBC оценивает долю ошибок чат‑ботов примерно в 45%. В бенчмарке RealFactBench модель Claude показала около 73% точности; о модели Grok в этом тесте сведений нет. OpenAI в октябре 2024 года представила SimpleQA — набор более чем 4 000 одиночных вопросов для оценки моделей.

Последствия для рабочих процессов ясны: ИИ эффективен при масштабном выявлении и агрегации претензий, но для проверки контекстных, юридически значимых или зависящих от первоисточников утверждений люди остаются критически важными. Кроме того, значительная часть достоверных знаний не представлена в открытом интернете, что ограничивает возможности моделей, обученных на общедоступных данных. Практические рекомендации — проектировать человеческую проверку как обязательный этап, явно показывать степень неопределённости ответов, давать прямые ссылки на первоисточники и регулярно тестировать системы по профильным бенчмаркам фактчекинга. По мнению профессионального фактчекера, автоматические AI‑сводки поисковых систем «непригодны» для окончательной верификации и могут ошибаться примерно в трети случаев.

Источники

WIRED AI · 5/26/2026

Ответы (0)

Пока нет ответов в этой теме.