
Исследовательская группа из Microsoft совместно с Northwestern University (Эванстон) и неправительственной организацией Witness представила новый бенчмарк для обнаружения дипфейков Microsoft — Northwestern‑Witness (MNW). Описание набора данных опубликовано 10 апреля в журнале IEEE Intelligent Systems и позиционируется как инструмент для разработки и оценки систем, определяющих, является ли изображение, аудиозапись или видео подделкой, созданной генеративными моделями.
Авторы подчеркивают, что MNW создан как многомодальный репозиторий: в него включены примеры изображений, аудио и видео, сгенерированные разными инструментами и моделями, чтобы «как можно лучше отражать ландшафт современных генеративных методов». По словам Томаса Роки (Thomas Roca) из Microsoft, качество медиа, создаваемого генеративным ИИ, постоянно растёт, и «практически любой может сейчас с помощью простого приложения на телефоне сгенерировать голосовое сообщение, воспроизводящее чей‑то голос, или изображение/видео, имитирующее внешний вид человека». В статье также отмечаются возможные вредоносные последствия таких подделок — от мошенничества и кражи личности до распространения неприемлемого интимного и детского контента.
Исследователи объясняют, что генераторы не идеальны и при создании медиа оставляют артефакты — «крошечные сигналы или следы», по которым можно попытаться отличить подлинное от сгенерированного. Как перечисляет Рока, такие артефакты «могут включать распределения шума, несоответствия между участками пикселей, разрывы в звуковых сигналах и другие нерегулярности». Именно обнаружение этих следов становится задачей детекторов, которые тренируются находить закономерности в артефактах.
Авторы связывают появление MNW с проблемой «гонки вооружений» между генераторами и детекторами: многие существующие системы показывают хорошие результаты в лабораторных условиях, но часто были натренированы на небольшом наборе генераторов и плохо обобщают на новые модели или реальные данные. Рока отмечает: «AI in the lab is not AI in the wild». Чтобы повысить применимость детекторов в реальной среде, MNW включает разнообразные образцы от разных генераторов, а также варианты постобработки материалов — изменение размера, кадрирование, сжатие и намеренные манипуляции, которые усложняют задачу обнаружения. Команда планирует обновлять набор данных каждую весну и осень, чтобы фиксировать новые артефакты и приёмы сокрытия.
В практическом плане MNW позиционируется как ресурс для академических групп, коммерческих разработчиков и неправительственных организаций, стремящихся проверять и улучшать надёжность систем обнаружения подделок и формулировать требования к верификации медиа. Исследователи признают риски двунаправенного использования: набор, созданный для усиления детекции, «всегда может быть использован для разработки новых способов обхода обнаружения». При этом, по словам Роки, цель проекта — «повышать стандарты, поощрять прозрачность и помогать обеспечивать, чтобы по мере развития генеративного ИИ наша способность оценивать подлинность успевала за ним».
Источники
Ответы (0)
Пока нет ответов в этой теме.