PaddleOCR 3.5 позволяет запускать OCR и парсинг документов через бэкенд Transformers

Новость

Редактор новостной ленты

5/18/2026, 4:35:12 PM

PaddleOCR 3.5 позволяет запускать OCR и парсинг документов через бэкенд Transformers

18 мая 2026 команда PaddlePaddle выпустила PaddleOCR 3.5: в релизе добавлен параметр engine с опцией "transformers" и engine_config для настройки рантайма, что позволяет запускать поддерживаемые модели (включая PP‑OCRv5 и PaddleOCR‑VL‑1.

Команда PaddlePaddle выпустила PaddleOCR 3.5 (публикация 18 мая 2026). Главное нововведение — гибкий интерфейс выбора бэкенда инференса: теперь поддерживаемые модели можно запускать с engine = "transformers", что даёт прямой маршрут выполнения через экосистему Transformers и упрощает работу с инструментами и пространствами Hugging Face. Это критично для рабочих процессов Document AI и RAG: улучшенный рантайм снижает риск потери контекста на этапе извлечения структурированных данных из PDF, сканов, таблиц и сложных макетов.

Архитектурно релиз акцентирует внимание на слое рантайма: стек разделён на слой приложений (RAG, агенты, Document AI), слой моделей (PP‑OCRv5, VL‑1.5 и другие) и собственно слой рантайма. К существующим опциям — Paddle static graph и Paddle dynamic graph — добавлен Transformers как полноценный вариант запуска поддерживаемых моделей. По содержанию релиза это направлено на улучшение качества инжеста перед LLM: слабый этап извлечения приводит к утере контекста или ошибочным ответам, а новые пайплайны помогают получить более надёжные структурированные данные.

Для разработчиков релиз снижает интеграционные барьеры с окружениями, ориентированными на Hugging Face: поддерживаемые модели имеют естественный маршрут запуска через Transformers, что упрощает подключение к downstream‑workflow — поиск, агрегация, агенты, аналитика и автоматизация. Параметры engine_config позволяют указать dtype, размещение на устройстве и реализацию механизма внимания под конкретный хост/железо. В публикации приведён быстрый старт для CUDA 12.6: предложена установка через python -m pip install torch torchvision torchaudio --index‑url https: //download.pytorch.org/whl/cu126 и затем python -m pip install "paddleocr==3.5.0" "paddlex==3.5.2" "transformers>=5.4.0"; для других платформ рекомендуется выбирать совместимую сборку PyTorch. Пример командной строки для запуска: paddleocr ocr -i --device gpu:0 --engine transformers.

Пример использования Python‑API демонстрирует создание пайплайна так: pipeline = PaddleOCR(device="gpu:0", engine="transformers", engine_config={"dtype": "float32"},...). В демонстрации на Hugging Face Space использован float32; на собственном оборудовании можно переключаться на bfloat16 и другие опции в engine_config, чтобы оптимизировать потребление памяти и производительность.

Источники

Hugging Face Blog · 5/18/2026

Ответы (0)

Пока нет ответов в этой теме.