数据库·29 天前
ClickHouse 博客发布了对 Delta Lake Change Data Feed (CDF) 的深度调研结果,并开源了一套 MIT 协议的 Python 参考实现,用于将 Delta Lake 的变更数据实时同步到 ClickHouse。文章详细分析了 Delta Lake CDF 的工作原理:每次写入事务会生成一个版本号,CDF 通过读取指定版本区间内的新增数据文件(而非解析事务日志全文)来获取变更。实现中需要处理 Schema 演进、删除向量(Deletion Vectors)以及时间旅行(Time Travel)等边界情况。该方案适用于需要将数据湖变更实时入仓的 OLAP 场景。
数据库·29 天前
ClickHouse Cloud 发布 DataLakeCatalog 引擎,支持直接查询 Iceberg 和 Delta Lake 表。用户连接 Glue 或 Unity Catalog 后,引擎自动发现湖仓中的表,无需手动注册即可用 ClickHouse 的 OLAP 速度执行查询。该引擎将 Catalog 层抽象为统一入口,屏蔽了不同湖格式的元数据差异。
数据库·29 天前
ClickHouse 官方博客发文探讨 Iceberg、Delta Lake 等开放表格式(OTF)能否成为可观测性场景的底层存储方案。文章指出,当前 OTF 在写入吞吐、分区管理、数据压缩和实时查询延迟上均未达到生产级可观测性需求,尤其是小文件膨胀和缺乏高效的 time-based 分区剪枝能力。但文章也认为,若引入列式写入缓冲层、自适应 compaction 策略以及针对时间序列的索引优化,Lakehouse 架构有望在未来实现低成本、无锁定的开放可观测性方案。
数据库·2026/4/17
ClickHouse 官方博客发文指出,云数据仓库(如 Snowflake、Redshift)的一体化霸权时代正在终结。核心论点是:随着数据规模增长和实时分析需求爆发,单一引擎无法同时满足存储、计算、查询、治理等所有需求,行业正走向"解绑"——存储与计算分离、查询引擎与存储格式解耦、元数据与数据分离。博客以 ClickHouse 自身演进为例,说明如何通过 ClickHouseKeeper(基于 Raft)、对象存储集成、以及轻量级物化视图等机制,让用户按需组合组件,而非被锁定在全栈方案中。