
Local‑First архитектура, внедрённая для извлечения метаданных из 4,700 PDF инженерных чертежей на Azure, уменьшила вызовы облачных моделей примерно на 75%, перенаправляя 70 — 80% документов на детерминистическую локальную обработку. Это снизило расходы на API и время обработки, а также уменьшило вероятность «тихой галлюцинации» у cloud‑only подхода — важный результат для команд, которые решают, когда вызывать модель, а когда полагаться на локальную логику. Система устроена как триуровневая архитектура: локальная детерминистическая обработка, облачная модель и человеческая верификация. Решение о маршрутизации принимается по confidence‑gated логике через композитную скоринговую функцию, которая объединяет пространственные признаки, anchor‑сигналы, форматные и контекстные критерии — а не просто проверку наличия текста — что позволяет отделять очевидные случаи для локальной обработки от пограничных.
При развёртывании на Azure локальная обработка выполняла 70 — 80% задач без вызовов API, резервируя Azure OpenAI для пограничных случаев и помечая низко‑доверительные результаты для ручной проверки. Авторы отмечают, что локальная детерминированная обработка особенно эффективна для документов со структурированными макетами; при этом local‑only подход не справляется со сканированными страницами и требует комбинирования с облаком и людьми.
Ключевым элементом проекта была инженерия промптов как итеративного артефакта. Пять целевых итераций промптов, каждая нацеленная на конкретный класс ошибок — путаницу с таблицами ревизий, ложные срабатывания сетки, форматный bias, эффекты «запоминания» и калибровку доверия — подняли точность с 89% до 98% на валидационных наборах. При этом тестирование апгрейдов моделей на 400‑файловом валидационном наборе показало, что GPT‑5+ не дал преимущества по точности по сравнению с GPT‑4.1, что подчёркивает необходимость task‑specific валидации вместо опоры на общие вендорские бенчмарки.
В терминах затрат и времени cloud‑first обработка тех же 4,700 файлов через Azure OpenAI оценивалась примерно в $47 и занимала около 100 минут; гибридный Local‑First снизил API‑расходы до $10 — 15 и сократил суммарное время до ~45 минут. Риск «тихой галлюцинации» для cloud‑only оценивали примерно в 2%. Ручная обработка потребовала бы порядка 160 человеко‑часов (≈2 минуты на документ), что даёт экономическое и временное преимущество гибридной схемы.
Вывод для инженеров и архитекторов прост: при корпусах с повторяемыми, структурированными макетами значимая доля входов (авторы оценивают в 60 — 70%) может надежно обрабатываться локально за миллисекунды, а оставшиеся маршрутизировать в облако по confidence и при необходимости отправлять на ручную верификацию. Трёхуровневый подход задаёт явные границы отказа и позволяет сочетать скорость, экономию и управляемый уровень ошибок, чего по отдельности не дают cloud‑only или local‑only решения.
Источники
Ответы (0)
Пока нет ответов в этой теме.