
Компания OpenAI представила на платформе Hugging Face Hub новую открытую модель Privacy Filter, предназначенную для обнаружения лично идентифицируемой информации (PII). Релиз, опубликованный 27 апреля 2026 года, предлагает разработчикам инструмент с открытым исходным кодом, распространяемый по пермиссивной лицензии Apache 2.0. Архитектура нейросети включает 1,5 миллиарда параметров, из которых при каждом запросе задействуются 50 миллионов активных параметров. Модель способна за один проход обрабатывать контекст объемом до 128 тысяч токенов, классифицируя текст по восьми категориям: частные лица, адреса, электронные почты, телефонные номера, URL-адреса, даты, номера счетов и секретные данные.
Вычислительная эффективность и точность нового решения подтверждаются достижением рекордных показателей (state — of-the-art) на специализированном бенчмарке PII — Masking-300k. Благодаря способности анализировать весь файл в рамках единого окна контекста на 128 тысяч токенов, разработчикам больше не требуется применять методы фрагментации или последующей склейки текста. Дополнительно встроенный механизм BIOES-декодирования обеспечивает четкое сохранение границ выделенных фрагментов даже при обработке длинных и неоднозначных последовательностей символов.
Для демонстрации возможностей Privacy Filter авторы проекта Юврадж Шарма, Фредди Боултон и Абубакар Абид разработали три масштабируемых веб-приложения. Первое из них, Document Privacy Explorer, предназначено для работы с объемными текстовыми файлами в форматах PDF и DOCX, такими как контракты или резюме. Приложение анализирует загруженный документ и возвращает его с цветовой подсветкой всех найденных PII-сущностей непосредственно на их исходных позициях. Пользовательский интерфейс оснащен боковой панелью с фильтрами по категориям и сводной информационной панелью, при этом фильтрация происходит на стороне клиента с помощью CSS, не требуя повторного запуска тяжелой модели.
Второе приложение, получившее название Image Anonymizer, решает задачу скрытия конфиденциальных данных на изображениях и скриншотах переписок, чеков или финансовых панелей. Процесс начинается с использования системы Tesseract, которая выполняет оптическое распознавание символов (OCR) и определяет ограничивающие рамки для каждого слова. Затем серверная часть восстанавливает полный текст, сопоставляет символы с координатами и пропускает данные через Privacy Filter. Результат возвращается в виде пиксельных прямоугольников, которые накладываются в виде черных полос поверх имен, адресов и номеров счетов.
Третий инструмент под названием SmartRedact Paste ориентирован на безопасный обмен текстовой информацией. Пользователь может вставить в приложение текст, содержащий чувствительные данные, после чего система автоматически скрывает их и генерирует публичный URL-адрес для безопасного распространения отредактированной версии. При этом создатель получает отдельную приватную ссылку, с помощью которой можно просмотреть исходный немодифицированный текст.
Технологической основой для всех трех проектов послужил компонент gradio.Server, который позволил объединить пользовательские фронтенды на базе HTML и JavaScript с инфраструктурой Gradio. Использование специального серверного API-декоратора позволяет подключать обработчики к системе очередей Gradio, благодаря чему параллельные загрузки корректно сериализуются, а вычислительные ресурсы ZeroGPU распределяются без конфликтов. Такой архитектурный подход дает возможность обслуживать сложные клиентские представления через единую конечную точку, которая доступна как из браузера, так и через SDK gradio_client без дублирования программного кода.
Источники
Ответы (0)
Пока нет ответов в этой теме.