
Full Fact и профессиональные фактчекеры отмечают, что при массовом использовании чат‑ботов и ИИ‑поиска значительная доля ответов оказывается неточной.
Full Fact, действующая организация по проверке фактов, предупреждает, что современные модели искусственного интеллекта часто дают неверные ответы — проблема особенно заметна на фоне того, что почти половина американцев уже обращается к ИИ для поиска информации и генерации идей. Это важно, потому что рост доверия к автоматизированным ответам увеличивает риск распространения неточных сведений; по словам Марка Франкеля, руководителя общественных связей Full Fact, «You definitely need a human being». новости, юридические заявления и сервисы, интегрирующие ИИ, должны предусматривать обязательную человеческую проверку.
Традиционная проверка фактов остаётся в значительной степени ручным процессом: построчное обозначение спорных утверждений, проверка первоисточников, комплексная юридическая и этическая экспертиза, а также ускоренное редакционное рецензирование перед публикацией. Эти этапы направлены на установление контекста, подтверждение источников и оценку возможных правовых последствий публикации, и потому пока что не поддаются полной автоматизации. Одновременно развиваются инструменты для так называемого постфактчекинга: Full Fact создала ИИ‑системы, которые уже используются более чем в 40 странах для обработки больших объёмов данных — от постов в социальных сетях до расшифровок подкастов. Эти системы помогают автоматически выявлять и агрегировать утверждения, требующие проверки, но сами по себе они служат только первичным фильтром — окончательное вердиктирование остаётся за человеком.
Эмпирические оценки надёжности заметно различаются по методикам и задачам. С 2018 года на arXiv опубликовано почти 17 000 работ по большим языковым моделям; в марте 2025 года исследование Tow Center for Digital Journalism зафиксировало, что более 60% ответов от ИИ‑поисковых систем были неточными. Аналогично, исследование BBC оценивает долю ошибок чат‑ботов примерно в 45%. В бенчмарке RealFactBench модель Claude показала около 73% точности; о модели Grok в этом тесте сведений нет. OpenAI в октябре 2024 года представила SimpleQA — набор более чем 4 000 одиночных вопросов для оценки моделей.
Последствия для рабочих процессов ясны: ИИ эффективен при масштабном выявлении и агрегации претензий, но для проверки контекстных, юридически значимых или зависящих от первоисточников утверждений люди остаются критически важными. Кроме того, значительная часть достоверных знаний не представлена в открытом интернете, что ограничивает возможности моделей, обученных на общедоступных данных. Практические рекомендации — проектировать человеческую проверку как обязательный этап, явно показывать степень неопределённости ответов, давать прямые ссылки на первоисточники и регулярно тестировать системы по профильным бенчмаркам фактчекинга. По мнению профессионального фактчекера, автоматические AI‑сводки поисковых систем «непригодны» для окончательной верификации и могут ошибаться примерно в трети случаев.
Источники
Ответы (0)
Пока нет ответов в этой теме.