
Databricks получила почётное упоминание на конференции SIGMOD 2026 за разработки в рамках Spark Declarative Pipelines (SDP) и выступит платиновым спонсором мероприятия, которое пройдёт 1–5 июня 2026 года в Бангалоре. Анонс был опубликован 29 мая 2026 года. Это признание подчёркивает важность предложенных подходов для команд по обработке данных и AI: SDP ставит задачу ускорить и упростить инкрементальную обработку больших данных в производственных условиях. SDP объединяет два взаимодополняющих подхода к инкрементальной обработке. Первый — материализованные представления (Materialized Views), инкрементальную поддержку которых обеспечивает движок Enzyme. Второй — собственный стриминговый движок SDP с API для состояния, водяных меток и других потоковых конструкций; оба подхода можно комбинировать в рамках одного конвейера, что даёт гибкость при построении ETL‑процессов и поддержке потоковых нагрузок.
Статья «Enzyme: Incremental View Maintenance for Data Engineering», представленная на SIGMOD, подробно описывает возможности Enzyme по инкрементальному поддержанию сложных MV, включая соединения (joins), оконные функции, агрегации и их комбинации. Авторы указывают на поддержку недетерминированных функций — например, current_date() — и «AI‑специфичных» функций, что расширяет практическое применение MV от классического ускорения запросов к задачам ETL и рабочим нагрузкам, связанным с AI. В документации подчёркнуто, что разработка ориентирована на масштаб и эксплуатацию в продуктивных сценариях.
Среди инженерных оптимизаций Enzyme использует эвристики и модель стоимости, учитывающую план выполнения и результаты предыдущих запусков, чтобы автоматически выбирать уровень применения обновлений — например, на уровне разделов (partition) вместо отдельных строк — и тем самым снижать объём перезаписываемых данных. Движок также избирательно кэширует промежуточные результаты для уменьшения I/O‑затрат. помимо SQL Enzyme умеет работать с MV, определёнными на Python, что потребовало разработки механизмов точного обнаружения изменений в определении представлений. Отдельно сообщается, что ключевые идеи эволюции Spark Structured Streaming будут изложены в статье на VLDB 2026.
Источники
Ответы (0)
Пока нет ответов в этой теме.