数据库 · 29 天前
ClickHouse 宣布原生集成 Apache Iceberg 等开放表格式,用户可直接查询 Iceberg 表、将 ClickHouse 数据写入 Iceberg,并在 Iceberg、Delta Lake、Hudi 之间做联邦查询。技术核心包括:利用 Iceberg 的 manifest 和 manifest list 实现分区裁剪与谓词下推,避免全表扫描;通过 Parquet 列存格式对齐 ClickHouse 向量化执行引擎,减少序列化开销;未来路线图计划支持 Iceberg REST Catalog、表维护(compaction、snapshot 过期)以及更深的统计信息集成以提升查询剪枝效率。
› 1 条相关源
数据库 · 29 天前
ClickHouse 博客发布了对 Delta Lake Change Data Feed (CDF) 的深度调研结果,并开源了一套 MIT 协议的 Python 参考实现,用于将 Delta Lake 的变更数据实时同步到 ClickHouse。文章详细分析了 Delta Lake CDF 的工作原理:每次写入事务会生成一个版本号,CDF 通过读取指定版本区间内的新增数据文件(而非解析事务日志全文)来获取变更。实现中需要处理 Schema 演进、删除向量(Deletion Vectors)以及时间旅行(Time Travel)等边界情况。该方案适用于需要将数据湖变更实时入仓的 OLAP 场景。
› 1 条相关源
数据库 · 29 天前
ClickHouse Cloud 发布 DataLakeCatalog 引擎,支持直接查询 Iceberg 和 Delta Lake 表。用户连接 Glue 或 Unity Catalog 后,引擎自动发现湖仓中的表,无需手动注册即可用 ClickHouse 的 OLAP 速度执行查询。该引擎将 Catalog 层抽象为统一入口,屏蔽了不同湖格式的元数据差异。
› 1 条相关源
数据库 · 29 天前
ClickHouse 官方博客发文探讨 Iceberg、Delta Lake 等开放表格式(OTF)能否成为可观测性场景的底层存储方案。文章指出,当前 OTF 在写入吞吐、分区管理、数据压缩和实时查询延迟上均未达到生产级可观测性需求,尤其是小文件膨胀和缺乏高效的 time-based 分区剪枝能力。但文章也认为,若引入列式写入缓冲层、自适应 compaction 策略以及针对时间序列的索引优化,Lakehouse 架构有望在未来实现低成本、无锁定的开放可观测性方案。
› 1 条相关源
工具发布 · 29 天前
ClickHouse 团队发布 otel.fyi,一个面向 OpenTelemetry Collector 配置文档的搜索优先站点。该站点将分散在官方文档各处的 receivers、processors、exporters、extensions 配置项集中索引,支持快速模糊搜索与直接跳转。技术核心在于对 OTel Collector 各组件配置 schema 的结构化提取与全文索引,解决了官方文档多页面分散、跨组件查找效率低的问题。
› 1 条相关源
数据库 · 29 天前
ClickHouse Cloud 发布 Warehouses 功能,在已有存储-计算分离架构之上进一步实现计算-计算分离(compute-compute separation)。每个 Warehouse 是一组独立计算节点,可绑定特定租户或工作负载,共享同一对象存储中的数据。核心机制是计算节点之间通过共享元数据层协调数据可见性,写入在一个 Warehouse 完成后,其他 Warehouse 通过元数据刷新即可读取最新数据,无需跨 Warehouse 拷贝数据。该方案帮助用户实现租户隔离、资源独立扩缩容,并优化整体资源利用率与成本。
› 1 条相关源
数据库 · 29 天前
ClickHouse 官方博客介绍了如何仅用 ClickHouse 自身能力实现 Medallion(青铜/白银/黄金)分层架构,无需引入 Spark、dbt 等外部 ETL 引擎。核心思路是利用 ClickHouse 的物化视图(Materialized View)和 Incremental Materialized View 实现青铜→白银→黄金的增量转换:青铜层直接存储原始数据(如 Kafka 表引擎或 S3 表函数);白银层通过物化视图做清洗、去重、类型转换;黄金层再做聚合、宽表、业务指标计算。文章强调所有转换都在 ClickHouse 内部完成,利用其列存和向量化执行引擎保证性能,避免数据搬运。
› 1 条相关源
数据库 · 29 天前
ClickHouse 官方博客发布了一项 JOIN 性能对比测试,选取 Databricks 和 Snowflake 公开的 JOIN 密集型 SQL 基准查询,在 ClickHouse Cloud 上原样运行。测试数据规模从 7.21 亿行到 72 亿行,ClickHouse 在所有规模下均比竞品更快且成本更低。这是系列文章的第一篇,后续会深入分析具体优化手段。
› 1 条相关源
数据库 · 29 天前
ClickHouse 官方博客发布 JOIN 基准测试第二弹,延续第一部分的测试场景,通过将 JOIN 替换为内存字典(in-memory dictionaries),在不重新加载数据或修改 Schema 的前提下,实现最高 6.6 倍查询加速,同时成本降低超过 60%。该方案无需变更现有表结构,仅需在查询层将字典查找替代传统 JOIN 操作,利用 ClickHouse 内置的字典引擎将小表全量加载到内存中,避免分布式 JOIN 带来的网络与计算开销。
› 1 条相关源
数据库 · 29 天前
ClickHouse 官方博客发布了一篇从 Postgres 迁移到 ClickHouse 的数据建模指南。文章重点介绍了 ReplacingMergeTree 引擎在去重场景下的使用方式,以及如何通过合理的 Ordering Key 和 PRIMARY KEY 策略来优化查询性能。核心思路是将 Postgres 的 OLTP 行存模型转换为 ClickHouse 的 OLAP 列存模型,利用排序键替代传统 B-Tree 索引来加速范围查询与聚合。
› 1 条相关源
工具发布 · 29 天前
ClickHouse 发布开源命令行工具 clickhouse.build,专为已有 Postgres 后端 TypeScript 应用设计,旨在降低引入 ClickHouse 做分析查询的门槛。该 CLI 通过 agentic 方式自动识别 Postgres 中的慢查询或分析型负载,生成迁移建议并配置 ClickHouse 数据同步,开发者无需手动编写 ETL 或修改应用代码。
› 1 条相关源
数据库 · 29 天前
Polymarket 将计算密集型分析工作负载从 PostgreSQL 迁移到 ClickHouse,以支撑用户侧实时功能。迁移后,原本需要数秒的复杂聚合查询降至毫秒级,同时释放了 PG 的 OLTP 能力。文章详细描述了数据管道架构:PostgreSQL 通过 PeerDB 实时 CDC 同步到 ClickHouse,再通过 ClickHouse 物化视图预聚合,最终由 API 层直接查询物化视图返回给前端。关键设计包括使用 ReplacingMergeTree 处理去重、利用 AggregatingMergeTree 做增量聚合,以及通过 ClickHouse 的极简 SQL 语法实现复杂漏斗分析。
› 1 条相关源
数据库 · 29 天前
Common Room 是一家 AI 客户智能平台,将其客户门户的实时分析引擎从 PostgreSQL 迁移至 ClickHouse。迁移后,查询性能显著提升,能够支撑更复杂的实时聚合与多维分析场景。核心替换逻辑是将原先 Postgres 中通过物化视图、索引和查询优化来勉强支撑的 OLAP 负载,直接交由列式存储 + 向量化执行的 ClickHouse 处理,消除了大量维护成本和查询延迟瓶颈。
› 1 条相关源
数据库 · 29 天前
ClickHouse 宣布推出企业级托管 PostgreSQL 服务,与 ClickHouse 原生集成,面向实时和 AI 驱动应用。该服务主打快速、可扩展,将 PostgreSQL 的 OLTP 能力与 ClickHouse 的 OLAP 能力打通,用户可在同一平台内管理两种数据库。
› 1 条相关源
数据库 · 29 天前
ClickHouse 官方发布博客,从架构、查询性能、存储成本、生态兼容等维度对比 Redshift 与 ClickHouse,并给出迁移建议。文章指出 ClickHouse 在实时写入、列存压缩比、多表 JOIN 及物化视图方面具备优势,而 Redshift 在 AWS 生态集成和事务支持上更成熟。博客未提供具体基准测试数据,侧重定性对比与迁移路径说明。
› 1 条相关源
数据库 · 29 天前
ClickHouse 官方博客介绍如何优化 JSON 数据查询,使仪表盘响应时间稳定在 100ms 以下,即使表中包含数十亿 JSON 文档。核心技术是使用物化路径(materialized path)将 JSON 字段映射为列式存储中的扁平列,避免每次查询时解析 JSON 的开销。文章还讨论了如何利用 ClickHouse 的物化列(materialized columns)和投影(projections)来预计算常用 JSON 路径,从而在写入时完成解析,查询时直接读取预计算列。
› 1 条相关源
数据库 · 29 天前
印度初创公司 Auditzy 因 Postgres 性能瓶颈,将核心分析查询迁移至 ClickHouse。迁移后查询速度提升 33 倍,数据压缩率提高 10 倍。ClickHouse 的列式存储与向量化执行引擎是提速关键,而 Postgres 在 OLAP 场景下因行式存储和缺乏向量化导致 I/O 与 CPU 效率低下。
› 1 条相关源
数据库 · 29 天前
beehiiv 是一个帮助创作者和企业的 Newsletter 平台,其数据架构从 Postgres 迁移到了 ClickHouse。迁移的核心原因是 Postgres 在分析型查询和大规模数据聚合场景下性能不足,而 ClickHouse 的列式存储和向量化执行引擎能显著提升查询效率。文章详细介绍了迁移过程中的架构设计、数据同步策略以及最终的性能收益。
› 1 条相关源
数据库 · 29 天前
ClickHouse 官方博客发文指出,云数据仓库(如 Snowflake、Redshift)的一体化霸权时代正在终结。核心论点是:随着数据规模增长和实时分析需求爆发,单一引擎无法同时满足存储、计算、查询、治理等所有需求,行业正走向"解绑"——存储与计算分离、查询引擎与存储格式解耦、元数据与数据分离。博客以 ClickHouse 自身演进为例,说明如何通过 ClickHouseKeeper(基于 Raft)、对象存储集成、以及轻量级物化视图等机制,让用户按需组合组件,而非被锁定在全栈方案中。
› 1 条相关源
数据库 · 2026/4/17
巴西金融科技公司 Trio 将支付分析平台迁移至 ClickHouse Cloud,实现存储减少 88%、查询速度"代际飞跃"。平台处理 2.43 亿+ 笔支付和每日 10 亿+ 事件。核心技术是滑动窗口(sliding window)机制处理延迟到达和重复数据,在实时流与最终一致性之间做权衡,避免传统批处理带来的存储膨胀和查询延迟。
› 1 条相关源