Исследователи из подразделения Google Research Флип Корн и Крис Велти 31 марта 2026 года представили новую аналитическую систему с открытым исходным кодом, призванную решить острую проблему современного машинного обучения — кризис воспроизводимости результатов. В индустрии искусственного интеллекта воспроизводимость определяет, насколько легко другие команды могут повторить эксперименты с теми же данными и настройками, получив идентичные итоги. Главная сложность заключается в том, что эталонные данные для тестирования моделей опираются на человеческие оценки, а люди, в отличие от машин, подходят к проблемам с разных точек зрения и часто не соглашаются друг с другом.
В своей научной работе исследователи описывают эту проблему как компромисс между «лесом и деревьями», то есть сложный выбор между общим количеством оцениваемых элементов и числом разметчиков на каждый отдельный фрагмент информации. Для поиска оптимального баланса и максимально эффективного расходования исследовательских бюджетов был разработан специальный симулятор, который теперь доступен для всего сообщества разработчиков на платформе GitHub. Этот инструмент позволил провести масштабный стресс — тест, варьируя два основных параметра: масштаб, то есть общее количество элементов в диапазоне от скромного бюджета в 100 единиц до крупных массивов в 50 000, и толпу, определяющую количество людей для оценки одного элемента от 1 человека до 500.
Чтобы убедиться в эффективности симулятора на реальных субъективных задачах, команда Google Research использовала несколько масштабных и разнообразных наборов данных. Первым стал массив по оценке токсичности, включающий 107 620 комментариев из социальных сетей, размеченных 17 280 людьми. Вторым выступил набор DICES, предназначенный для оценки безопасности диалогового искусственного интеллекта: он состоит из 350 разговоров с чат-ботами, которые были проанализированы по 16 параметрам безопасности 123 аннотаторами. Третий кросс-культурный набор данных под названием D3code содержал 4 554 элемента, оцененных на предмет оскорбительности 4 309 разметчиками из 21 страны с строгим соблюдением гендерного и возрастного баланса.
Использование столь глубокой базы позволило ученым проверить, как ведет себя система при оценке сложных или сильно несбалансированных данных. В частности, исследователи смоделировали ситуации критического перекоса, когда 99 процентов массива составляет информационный мусор или спам, и лишь 1 процент представляет реальную важность для обучения модели. Дополнительно изучалось влияние расширения количества категорий оценки на поведение разметчиков, например, при разделении тегов на «нейтральные», «слегка оскорбительные» и «откровенно токсичные».
Ключевой вывод исследования, бросающий вызов текущему статусу — кво в оценке машинного обучения, заключается в том, что универсального подхода к разметке не существует. Принятый стандарт в несколько аннотаторов на один элемент категорически недостаточен для фиксации естественных человеческих разногласий, особенно при выявлении языка вражды или анализе тонких культурных предвзятостей. Предложенный командой Google Research новый фреймворк предоставляет разработчикам четкую дорожную карту для создания более надежных, экономически эффективных и легко воспроизводимых тестов для искусственного интеллекта, которые не отфильтровывают субъективность как досадную ошибку, а используют объективное разнообразие мнений как наиболее ценный сигнал.
Источники
Ответы (0)
Пока нет ответов в этой теме.