
Инженерная команда Meta описала масштабную миграцию платформы приёма данных, которая ежедневно переносит несколько петабайт MySQL‑данных социальной графы, на централизованный сервис складирования.
Инженеры Meta изложили подробности недавней миграции платформы приёма данных, обрабатывающей несколько петабайт MySQL‑данных социальной графы в день. Команда ставила целью повысить надёжность и операционную эффективность, сохранив бесперебойную работу зависимых аналитических и ML‑сервисов. В рамках ре‑архитектуры компания заменила распределённые, принадлежащие пайплайнам решения на централизованный самоуправляемый склад (warehouse) и сопутствующие сервисы управления. Каждый CDC‑пайплайн содержал внутреннюю таблицу для полного дампа (full dump), таблицу дельт (delta) для захвата изменений и целевую таблицу для потребителей; метаданные и схемы хранились в центральном сервисе управления заданиями.
Миграция выполнялась стадийно: первоначальная фаза shadow сравнивала поведение новой системы с продакшеном, затем применялась reverse shadow, когда новая платформа брала на себя владение продакшен‑трафиком при сохранении возможности отката, и, наконец, cleanup для вывода устаревших пайплайнов. Для контроля применялись автоматизированные проверки и совместимость слоёв. Для подтверждения корректности команда постоянно мониторила расхождения в количестве строк и checksum между продакшен‑задачами и shadow‑задачами; при обнаружении несоответствий проводилось расследование, исправление в предпроизводственной среде и повторная верификация. Одновременно оценивались квоты по вычислениям и хранилищу для shadow‑задач, чтобы удостовериться в достаточности ресурсов перед переводом в продакшен.
Meta подчёркивает масштабность операции: речь о тысячах миграционных заданий и одной из крупнейших в мире инсталляций MySQL. Инженеры отмечали необходимость жёсткого отслеживания жизненного цикла миграции и надёжных механизмов rollout/rollback; как заметил Syed Moeen Kazmi, такая миграция ближе к «открытой операции на сердце», чем к обычному апгрейду. Завершив перевод всего рабочего набора приёма данных и выведя старую систему из эксплуатации, команда зафиксировала улучшения в надёжности и эффективности операций. Практические выводы для инженеров включают минимизацию создания лишних shadow‑задач, чтобы избежать повторных тяжёлых полных дампов, и строгую валидацию каждого задания по корректности, латентности и использованию ресурсов.
Источники
Ответы (0)
Пока нет ответов в этой теме.