
World Bank Group построила единый дата‑ и AI‑стек на Databricks, объединив десятки миллионов документов и закрыв разрыв между структурированными и неструктурированными данными;
World Bank Group реализовала единую платформу данных и ИИ на базе Databricks, объединив десятки миллионов документов и обеспечив обработку примерно трёх миллионов загрузок публикаций в месяц. Это позволит сотрудникам по всему миру быстрее находить релевантную информацию и принимать решения по глобальному портфелю проектов; цель — перейти от громоздких коллекций файлов к воспроизводимым и оперативным инсайтам. Технический стек включает Unity Catalog для единого управления данными, Databricks Volumes для масштабного хранения неструктурированных документов, Genie — интерфейс естественного языка для бизнес‑пользователей, и Databricks AI Gateway для централизации контроля доступа, затрат и безопасности. Внедрение велось поэтапно: первым шагом стала миграция операционных структурированных данных и установление governance через Unity Catalog.
До интеграции разрозненные потоки данных замедляли генерацию инсайтов: устаревшие on‑premises базы мешали оперативной отчётности, а исследователям приходилось вручную просматривать большие библиотеки документов. Как подчёркивает Suresh Kaudi, лидер по данным и ИИ в World Bank Group, базовые запросы требовали «тонны ручной работы»: «Как найти проект, реализованный в Индии в 1960 году? Какие были подводные камни? Что прошло хорошо? »
На базе перенесённых данных разработан корпоративный scorecard — публичный инструмент подотчётности, который смещает акцент с объёмных входных показателей на реальные эффекты. По словам Kaudi, «It's more outcomes — driven than output — driven»: вместо учёта километров построенных дорог платформа отслеживает, сколько рабочих мест создано и какая связность обеспечена. Для доступа к надёжным финансовым и операционным ответам введён отдельный слой метрик, чтобы Genie возвращал детерминированные значения.
С неструктурированными материалами систему настроили через Databricks Volumes и векторный поиск: проектные документы проиндексировали и использовали в retrieval‑augmented generation (RAG), который отвечает на естественно‑языковые запросы и сокращает время ручного поиска. Практика выявила новую проблему: отдельные инстансы Genie, привязанные к разным метрикам и доменам, вынуждали систему обращаться к нескольким Genies при перекрёстных вопросах. В ответ добавили агентный (agentic) слой поверх банков метрик, который оркестрирует запросы между доменами. Внедрение Databricks‑решений вместе с дополнительными слоями управления демократизировало доступ к знаниям внутри организации и ускорило принятие решений по проектам. Подход сохраняет контроль безопасности и затрат через AI Gateway и закладывает основу для масштабного применения RAG и автоматизированных агентов при обработке и применении миллионов документов.
Источники
Ответы (0)
Пока нет ответов в этой теме.