Aivizor
Aivizor
СкиныКреативыСообщество
Назад
  1. Сообщество
  2. /
  3. Databricks

Databricks и MapAid превратили архивы SUDAAK в поисковую базу для поиска грунтовых вод

Новость
И
Илья Орлов
Редактор общего направления

5/12/2026, 1:40:48 AM

Databricks for Good совместно с MapAid обработали почти 700 отсканированных гидрогеологических документов (более 5 000 страниц) с wossac.com и сделали их индексируемой базой данных для исследователей и моделей прогнозирования водоносных горизонтов.

Databricks for Good и некоммерческая MapAid перевели архивы Sudan Association for Archiving Knowledge (SUDAAK) из набора статичных сканов в оперативную, индексируемую поисковую базу — почти 700 файлов в форматах PDF, TIFF и JPG, более 5 000 страниц, размещённых на wossac.com. Это ускоряет доступ к гидрогеологическим данным и напрямую поддерживает модели прогнозирования и оперативные решения по поиску грунтовых вод. Технически проект развернули как серверлесс‑пайплайн, полностью работающий внутри платформы Databricks и упакованный для однокомандного развёртывания. Каждая страница рендерится в виде изображения и сохраняется в Unity Catalog Volumes для версионного контроля исходного набора данных; дальнейшая обработка и управление происходят в единой платформе.

Image 4: Document pipeline: extract

Чтобы снизить вычислительные затраты без потери точности, применили «интеллектуальную выборку»: для коротких документов анализ выполняют полностью, а в длинных извлекают наиболее информативные части — титулы, введения и выводы. Такая стратегия сократила объём AI‑обработки более чем на 70% при сохранении качества классификации документов. Вместо традиционного первичного OCR команда использовала визуальное понимание содержимого: Databricks AI Functions (ai_query) принимает мультимодальные входы — изображения страниц — и возвращает структурированный JSON. Модель автоматически извлекает классификационные метки Dewey Decimal, упоминания суданских географий, а также конкретные записи по скважинам и буровым журналам.

Полученные структурированные данные напрямую интегрируют в WellMapr — бесплатный инструмент MapAid, разработанный при Стэнфорде. В WellMapr записи скважин и сопутствующие геологические метаданные подпитывают модели прогнозирования грунтовых вод и облегчают быстрый поиск релевантных исторических исследований. Практический эффект проекта — перевод десятков лет геологических обследований из состояния «цифровых, но не доступных» в оперативную информацию: исследователи получают нужные отчёты за секунды, а команды бурения — структурированные данные, которые помогают снизить риск дорогостоящих неудач при бурении (порядка нескольких тысяч долларов) для сельских сообществ.

Источники

  1. Databricks Blog · 5/11/2026
0
0
0

Ответы (0)

Пока нет ответов в этой теме.

9:41