
Google запустил превью serverless Iceberg REST‑каталога для BigQuery, объявление сделано на Apache Iceberg Summit в прошлом месяце. Новая возможность позволяет создавать, обновлять и запрашивать одни и те же таблицы Apache Iceberg из BigQuery и движков вроде Spark, Flink и Trino без копирования данных, что важно для унификации доступа к lakehouse‑хранилищам и сокращения дублирования. Для команд это означает единую метаданную точку входа и меньше ручной работы по синхронизации таблиц. В превью Google расширяет инфраструктуру BigQuery для поддержки Iceberg‑таблиц: управляемая метадата, автоматическое обслуживание таблиц, транзакции и репликация изменений. Также реализована централизованная модель правил доступа, чтобы права можно было согласованно применять между разными движками запросов вместо ведения отдельных списков для каждого инструмента.
Представители продукта Yuriy Zhovtobryukh и Angela Soares отмечают, что раньше команды вынуждены были выбирать между Google‑управляемым Iceberg REST‑каталогом и полностью BigQuery‑управляемыми таблицами из‑за ограничений записи и управления хранением. Новая интеграция призвана снять это разделение и дать возможность записи через сторонние ETL‑движки и через BigQuery одновременно. На мероприятии Next ’26 Google расширила фокус до кросс‑облачного lakehouse: теперь анонс включает возможность запросов Iceberg‑каталогов в AWS и Azure и совместимость с внешними платформами, включая Databricks и Snowflake. Компания также подчёркивает интеграцию с неструктурированными файлами и AI‑рабочими нагрузками как ключевые сценарии применения и развития экосистемы.
Параллельно BigQuery ObjectRefs стал Generally Available: функция связывает структурированные Iceberg‑данные с неструктурированными файлами в Cloud Storage для мультимодального анализа и AI‑пайплайнов. В превью доступен также Knowledge Catalog (бывший Dataplex) для управления метаданными, отслеживания линейности данных и согласованного контроля доступа между системами. На рынке поддержка Iceberg уже реализована у других поставщиков: AWS предлагает нативную интеграцию через EMR, Glue, Athena и Redshift. Практики указывают, что ключевой барьер — эксплуатационные расходы на уплотнение данных, управление метаданными и оркестрацию; David Colbert подчёркивает важность «catalog point», а аналитики, включая Precious Pendo, отмечают, что слой, владеющий «контекстом и интеллектом», может обеспечить основную ценность для enterprise AI.
Для инженеров и архитекторов превью открывает возможность унифицировать доступ к данным между аналитическими движками и платформами без копирования, сократить ручные операции по поддержке метаданных и упростить governance в многодвижковых сценариях. В то же время часть функций остаётся в превью: команды должны планировать пилоты и проверять совместимость с существующими ETL‑пайплайнами перед масштабными внедрениями.
Источники
Ответы (0)
Пока нет ответов в этой теме.