В новой статье серии Azure IaaS Microsoft описывает переход от точечных улучшений к системной интеграции compute, storage и networking, чтобы обеспечить предсказуемую P99/P99.
Microsoft в очередном посте серии Azure IaaS заявляет, что производительность в облаке следует рассматривать как свойство всей платформы, а не набора отдельных ресурсов. Авторы утверждают, что при современных рабочих нагрузках достижение стабильной P99/P99.9‑латентности и предсказуемой пропускной способности возможно только при согласованной работе вычислений, хранилища и сети; это важно для масштабируемого обучения и инференса моделей, а также для поддержания бизнес‑критичных баз данных.
В материале подробно перечислены ключевые элементы платформы, направленные на решение этой задачи. Названная аппаратно‑и‑программная разгрузка Azure Boost снижает накладные расходы гипервизора и освобождает CPU‑циклы. Для хранения отмечены Azure Blob Storage и ADLS с оптимизированным параллельным доступом, обеспечивающим устойчивую IO‑производительность. Отдельно подчёркнута оптимизация «полного пути данных» — от диска и сети до вычислительных узлов — что критично для сценариев обучения и инференса моделей.
Авторы противопоставляют такой системный подход привычным практикам: многие команды пытаются повысить производительность простым увеличением размеров VM, установкой более быстрых дисков или расширением сетевого канала. Документ указывает, что узкие места в реальных системах смещаются динамически — примером служит случай, когда база данных перестаёт быть ограниченной дисковой латентностью и становится ограниченной сетевой пропускной способностью — и потому локальные оптимизации часто не решают проблему в целом.
Из этого вытекают практические следствия для инженеров: разгрузка сетевых и дисковых операций уменьшает накладные расходы на CPU и высвобождает доступные вычислительные циклы для обучения и инференса; устойчивое хранилище предотвращает простаивание вычислительных узлов и поддерживает требуемую устойчивость IO. В результате платформа может добиваться более предсказуемой P99/P99.9‑латентности, удерживать пропускную способность при масштабировании Kubernetes‑кластеров и поддерживать бизнес‑критичные базы без постоянной ручной настройки.
Пост также предлагает практическое руководство по проектированию: оценивать производительность не одной метрикой, а набором (латентность, пропускная способность, масштабируемость, консистентность и время до готовности), прорабатывать архитектуру с учётом этих измерений и строить интеграцию compute/storage/network под конкретные рабочие нагрузки. Это третья публикация в серии Azure IaaS; авторы обещают дальнейшие рекомендации по надёжности, безопасности, масштабируемости и оптимизации затрат.
Источники
Ответы (0)
Пока нет ответов в этой теме.