Databricks for Good совместно с MapAid обработали почти 700 отсканированных гидрогеологических документов (более 5 000 страниц) с wossac.com и сделали их индексируемой базой данных для исследователей и моделей прогнозирования водоносных горизонтов.
Databricks for Good и некоммерческая MapAid перевели архивы Sudan Association for Archiving Knowledge (SUDAAK) из набора статичных сканов в оперативную, индексируемую поисковую базу — почти 700 файлов в форматах PDF, TIFF и JPG, более 5 000 страниц, размещённых на wossac.com. Это ускоряет доступ к гидрогеологическим данным и напрямую поддерживает модели прогнозирования и оперативные решения по поиску грунтовых вод. Технически проект развернули как серверлесс‑пайплайн, полностью работающий внутри платформы Databricks и упакованный для однокомандного развёртывания. Каждая страница рендерится в виде изображения и сохраняется в Unity Catalog Volumes для версионного контроля исходного набора данных; дальнейшая обработка и управление происходят в единой платформе.

Чтобы снизить вычислительные затраты без потери точности, применили «интеллектуальную выборку»: для коротких документов анализ выполняют полностью, а в длинных извлекают наиболее информативные части — титулы, введения и выводы. Такая стратегия сократила объём AI‑обработки более чем на 70% при сохранении качества классификации документов. Вместо традиционного первичного OCR команда использовала визуальное понимание содержимого: Databricks AI Functions (ai_query) принимает мультимодальные входы — изображения страниц — и возвращает структурированный JSON. Модель автоматически извлекает классификационные метки Dewey Decimal, упоминания суданских географий, а также конкретные записи по скважинам и буровым журналам.
Полученные структурированные данные напрямую интегрируют в WellMapr — бесплатный инструмент MapAid, разработанный при Стэнфорде. В WellMapr записи скважин и сопутствующие геологические метаданные подпитывают модели прогнозирования грунтовых вод и облегчают быстрый поиск релевантных исторических исследований. Практический эффект проекта — перевод десятков лет геологических обследований из состояния «цифровых, но не доступных» в оперативную информацию: исследователи получают нужные отчёты за секунды, а команды бурения — структурированные данные, которые помогают снизить риск дорогостоящих неудач при бурении (порядка нескольких тысяч долларов) для сельских сообществ.
Источники
Ответы (0)
Пока нет ответов в этой теме.