
Databricks for Good вместе с Virtue Foundation вывели пилотный POC на промышленный уровень: теперь система Foundational Data Refresh (FDR) агрегирует сведения о медицинских объектах и НКО в 72 низко‑ и средне‑низкодоходных странах и служит основой платформы VF Match для сопоставления медицинских волонтёров с локальными потребностями. Партнёрство развивается с 2024 года; ранние результаты показали, что крупные языковые модели могут структурировать разрознённые веб‑данные, что сделало возможным переход к масштабируемой службе.
Ядро решения — FDR, где данные собираются и регулярно обновляются из двух внешних источников: Overture Maps для геолокаций и Bright Data для веб‑скрапинга. Извлечение информации реализовано через многошаговый LLM‑пайплайн: сначала классифицируют релевантность страниц, затем определяют тип организации и в конце извлекают специальности, оборудование и процедуры. В сумме через модель прошло более 25 млн веб‑страниц, что подтверждает объём работы по нормализации и очистке входящих данных.
Технически обработка организована на платформе Databricks с использованием Apache Spark, что позволяет распараллеливать задачи по тысячам исполнителей и обеспечивать высокопроизводительный LLM‑инференс. Команда разбила задачу на узконаправленные вызовы моделей вместо одного большего запроса, что существенно сократило потребление токенов и повысило точность на каждом подзадаче — ключевой фактор для «производственных» гарантий по скорости и качеству обработки. Практическое значение видно в VF Match: платформа использует обновлённую базу для точного сопоставления сообщества медволонтёров с выявленными пробелами в сервисах. Virtue Foundation уже обслужила свыше 50 000 пациентов с фокусом на Гану и Монголию; теперь репрезентативная карта инфраструктуры помогает направлять ресурсы в регионы с наибольшим дефицитом и планировать вмешательства более прицельно.
Для обеспечения поддерживаемости и воспроизводимости инженеры внедрили ряд архитектурных практик: промежуточные данные хранятся в звёздной схеме, что упрощает аналитику; применено статус‑ориентированное чекпоинтирование, исключающее многократные дорогостоящие вызовы LLM; создан конфигурируемый реестр методов извлечения, где каждая стратегия описана структурированным объектом с системными подсказками, что облегчает тестирование и расширение пайплайнов. Тем не менее сохраняются классические проблемы качества данных: после скрапинга и извлечения требуется масштабное разрешение сущностей, так как одни и те же учреждения фигурируют в разных представлениях и форматах. Решение задачи сопряжено с критичностью для точного сопоставления волонтёров и корректного расчёта аналитики; команда также отмечает необходимость работы с перекосами в данных и обработкой многотерабайтных нагрузок при промышленной эксплуатации.
Источники
Ответы (0)
Пока нет ответов в этой теме.