Исследователи MIT разработали метод RLCR, который позволяет ИИ-моделям выражать неуверенность, значительно улучшая надежность их ответов и устраняя «галлюцинации» без снижения производительности.
Исследователи из Лаборатории компьютерных наук и искусственного интеллекта (CSAIL) Массачусетского технологического института (MIT) разработали инновационный метод обучения, который позволяет моделям искусственного интеллекта (ИИ) выражать неуверенность в своих ответах. Этот прорыв направлен на борьбу с проблемой чрезмерной самоуверенности, присущей современным рассуждающим моделям, которая часто приводит к так называемым «галлюцинациям» и существенно подрывает общую надежность их выводов.
Новая техника, получившая название RLCR (Reinforcement Learning with Calibration Rewards), обучает языковые модели генерировать не только ответы, но и адекватно калиброванные оценки уверенности в них. Эксперименты показали впечатляющие результаты: RLCR сокращает ошибку калибровки до 90%, при этом сохраняя или даже улучшая точность как на задачах, по которым модель уже обучалась, так и на совершенно новых. Результаты этой работы будут представлены на Международной конференции по представлениям обучения позднее в этом месяце.
Корневая причина чрезмерной самоуверенности ИИ-моделей кроется в стандартных методах обучения с подкреплением (RL), которые лежат в основе недавних достижений в области ИИ-рассуждений. Такие подходы, включая используемые в системах наподобие o1 от OpenAI, вознаграждают модели исключительно за правильные ответы и наказывают за неправильные, полностью игнорируя промежуточные состояния или неопределенность. Это лишает модели стимула выражать неуверенность, фактически обучая их отвечать на любой вопрос с полной уверенностью, даже когда их ответ является лишь догадкой.
Метод RLCR эффективно решает эту проблему путем добавления в функцию вознаграждения единственного, но крайне важного параметра — оценки Брайера (Brier score). Эта хорошо зарекомендовавшая себя математическая мера штрафует расхождение между заявленной уверенностью модели и её фактической точностью. Таким образом, в процессе обучения модели учатся одновременно рассуждать о самой задаче и объективно оценивать собственную неопределенность, выдавая ответ и соответствующий балл уверенности. Система наказывает как уверенно неправильные ответы, так и неоправданно неуверенные, но правильные.
Последствия такой искусственной самоуверенности особенно критичны в сферах, где решения пользователей напрямую зависят от выводов ИИ, таких как медицина, юриспруденция или финансы. Система, которая выражает высокую степень уверенности вне зависимости от фактической достоверности своих рекомендаций, становится ненадежной и потенциально опасной, поскольку пользователь не получает необходимого сигнала для поиска второго мнения или дополнительной проверки. Математически доказано, что структура вознаграждения RLCR гарантирует создание моделей, которые являются одновременно точными и хорошо калиброванными.
Команда MIT также продемонстрировала практическую полезность оценок уверенности, производимых RLCR, на этапе вывода. Например, при генерации моделью нескольких возможных ответов, выбор того, который имеет наивысшую сообщаемую уверенность, или взвешивание голосов по уверенности в схеме голосования большинством, значительно улучшает общую точность и надежность всей системы. Примечательно, что обычное обучение с подкреплением не только не способствует калибровке, но и активно вредит ей, делая модели более способными, но при этом и более самоуверенными.
Источники
Ответы (0)
Пока нет ответов в этой теме.