InfoPie · AI · 大模型 · 数据库

昨天 · 5月16日周六

1 条

论文速递·1 天前

论文详述 SSD 写入原理：从闪存特性到写入优化

VLDB 2026 收录论文《How to Write to SSDs》系统阐述了 SSD 的写入机制与优化策略。论文首先剖析 NAND 闪存的物理特性（页级读写、块级擦除、写后擦除约束），然后提出一套面向现代 SSD 的写入方法论，涵盖写入缓冲、垃圾回收感知调度、多流写入（Multi-Stream Writing）以及主机端 FTL 协同设计。实验表明，合理利用写入排序与并行性可将 SSD 写入吞吐提升 2–4 倍，同时显著延长设备寿命。该工作为数据库存储引擎和文件系统的 SSD 适配提供了理论指导。

5月15日周五

3 条

数据库·1 天前

PostgreSQL 可选存储引擎实战指南：从 ORC 到 S3

PostgreSQL 生态中出现了多种可选存储引擎，允许用户绕过默认的堆存储（heap storage），针对不同工作负载选择底层数据布局。文章系统梳理了当前主流方案：Zedstore（列存，面向 OLAP）、ORC for PG（Hive ORC 格式）、Parquet for PG（Arrow 生态列存）、pg_lakehouse（S3 数据湖查询）、pg_strom（GPU 加速）、以及面向时序的 TimescaleDB 压缩引擎。每种引擎在写入路径、索引支持、MVCC 兼容性上各有取舍，部分引擎牺牲了 PostgreSQL 的完整事务语义以换取分析查询性能。

向量库与RAG·2 天前

AlayaLaser：面向高维向量的磁盘图索引系统，计算瓶颈成新突破口

论文发现，磁盘图索引ANNS在高维向量场景下性能瓶颈并非I/O，而是计算（compute-bound）。作者通过适配Roofline模型分析现有系统，提出AlayaLaser：利用SIMD指令优化磁盘数据布局以缓解计算瓶颈，并设计基于度的节点缓存、聚类入口点选择、提前分发策略等优化。实验表明，AlayaLaser不仅超越现有磁盘图索引系统，甚至可匹敌或超越内存索引系统。

数据库·2 天前

SEMA-SQL：用LLM语义算子扩展关系代数，自动生成混合查询

传统SQL无法处理实体语义匹配、非结构化文本分析等需求，而现有语义算子系统虽引入LLM能力，却要求用户手动编排查询管线。SEMA-SQL提出混合关系代数（HRA），将关系算子与LLM用户自定义函数（UDF）统一为声明式抽象，系统自动完成三件事：通过上下文学习生成含自然语言规格说明的HRA查询、基于代价的变换与UDF重写进行优化、以及通过智能批处理将语义连接中的LLM调用量平均减少93%。实验表明该方法显著扩展了查询能力。

5月14日周四

6 条

数据库·2 天前

PostgreSQL 批量更新修复 11 个 CVE，18.4/17.10 同步发布

PostgreSQL 全球开发组发布 18.4、17.10、16.14、15.18 及 14.23 五个版本，累计修复 11 个安全漏洞（CVE）。本次更新为安全修复版本，不包含破坏性变更，建议所有运行受影响版本的用户尽快升级。具体漏洞细节尚未完全公开，但涉及多个核心组件，包括查询执行、权限检查及复制协议等模块。

向量库与RAG·2 天前

IBM 开源 32K 上下文多语言 Embedding 模型，Apache 2.0 许可

Hugging Face 博客发布 IBM Granite Embedding Multilingual R2，这是一款采用 Apache 2.0 开源许可的多语言 Embedding 模型。该模型支持 32K 上下文窗口，参数量低于 100M，在检索质量上达到同规模最佳水平。模型面向多语言检索与 RAG 场景设计，支持长文档嵌入，适合资源受限的部署环境。

大模型·2 天前

Anthropic 推出 Claude 认证架构师考试

Anthropic 发布了 Claude Certified Architect 认证考试，面向使用 LLM 的工程人员。考试内容涵盖评估（evals）、护栏（guardrails）、RAG 的正确实现、多智能体编排，以及何时不应使用 LLM。考试难度在于材料本身不繁重，但考题全面深入，需要真正理解工程实践而非死记硬背。认证入口通过 Skilljar 平台开放，同时配套官方学习视频。

向量库与RAG·3 天前

本地 LLM 做个人知识库：RAG 落地消费硬件的真实痛点

Reddit 用户发帖询问是否有人真正把本地 LLM 当作日常个人知识库使用（非编码、非实验），引发社区讨论。核心痛点集中在三方面：消费级硬件上 RAG 的检索精度不可靠，用户需要反复核对结果；LlamaIndex、Ollama 等工具链变化太快，两年前的教程已失效；个人文档积累后上下文长度管理困难。社区反馈显示，目前尚无开箱即用的方案，维护成本接近一份兼职工作。

工具发布·3 天前

Simon Willison 发布 Datasette IP 速率限制插件 0.1a0

Simon Willison 发布 datasette-ip-rate-limit 0.1a0 插件，用于保护 Datasette 实例免受恶意爬虫的过度请求。该插件支持按路径配置速率限制规则，可设置时间窗口、最大请求数和封禁时长，并支持白名单路径和自定义请求头（如 Fly-Client-IP）。生产配置已在 datasette.io 上线，对 /global-power-plants/ 等演示数据库路径限制为每 60 秒最多 60 次请求，超限封禁 20 秒。插件由 Codex（GPT-5.5 xhigh）辅助生成。

数据库·3 天前

减少数据库出站流量：查询优化实现性能与成本双赢

PlanetScale 发文指出，数据库出站（egress）流量是云上被忽视的成本与性能瓶颈。多数云厂商对公网出站流量按量计费，而查询返回过多数据或频率过高是主因。文章以 Postgres 的 JSONB 列存储富文本内容为例，说明 SELECT * 返回整个 content 字段会浪费大量带宽。核心优化手段包括：只查询需要的列、使用 LIMIT/分页、利用 Postgres 的 TOAST 机制避免大字段随行传输、以及通过物化视图或缓存减少重复查询。这些原则适用于所有主流云数据库。

5月13日周三

2 条

数据库·3 天前

rqlite 接管 SQLite WAL，实现分布式强一致复制

rqlite 作者 Philip O'Toole 撰文详解该分布式数据库如何直接操控 SQLite 的预写日志（WAL）。传统方案通过 SQLite 的备份 API 或 VFS 层获取数据变更，但 rqlite 选择直接解析 SQLite WAL 的帧结构，提取已提交的事务记录，再通过 Raft 共识协议在集群中复制。核心挑战在于 WAL 格式的版本兼容性、帧校验与页边界对齐。该方案避免了 SQLite 备份 API 的全局锁开销，同时保留了 SQLite 原生的 ACID 事务语义。

数据库·4 天前

Postgres 视图不是表：ALTER VIEW 缺失机制藏在 pg_dump 里

Radim Marek 深入剖析 Postgres VIEW 的底层实现，指出视图在逻辑上像表但变更时极其痛苦：ALTER VIEW 能力严重不足，无法像表一样增删列或修改类型。文章揭示 pg_dump 内部早已具备将视图重建为表再转回视图的完整流程，但该机制未暴露给 ALTER VIEW。作者建议在开发早期就用视图封装表结构，避免后期迁移成本。

5月12日周二

3 条

工具发布·4 天前

Datasette 1.0a29 修复竞态条件导致的段错误

Datasette 发布 1.0a29 版本。主要变更包括：新增 TokenRestrictions.abbreviated() 工具方法用于创建 "_r" 字典；修复空表时表头和列选项不可见的问题；修复 Mobile Safari 上列操作对话框的显示 bug。最关键的修复是一个因 Datasette.close() 与 Database.close() 之间的竞态条件导致的段错误（segfault）——测试结束时自动关闭连接的机制与线程中正在执行的查询冲突，作者借助 Codex CLI（GPT-5.5 xhigh）生成了最小 Dockerfile 来复现该 bug 并最终解决。

数据库·5 天前

ClickHouse 26.4 发布：COUNT DISTINCT 加速，EXPLAIN 输出更友好

ClickHouse 26.4 正式发布。新版本让更多特性兼容 SQL 标准，COUNT DISTINCT 查询获得性能提升，EXPLAIN 语句的输出格式进一步优化，可读性更强。本次发布未提及破坏性变更（breaking change），属于常规功能迭代。

数据库·5 天前

DuckDB 推出 Quack 远程协议，从嵌入式走向客户端-服务器

DuckDB 正式发布 Quack 远程协议，标志着这款以嵌入式、进程内架构著称的 OLAP 数据库开始支持客户端-服务器模式。Quack 协议允许客户端通过网络远程连接 DuckDB 实例，解决了多进程同时读写同一数据库文件的并发问题，例如多进程采集端写入 + 仪表盘查询的场景。协议设计上注重减少传统数据库协议的开销，但具体 wire format、序列化方式、是否支持流式传输等细节尚未披露。这是 DuckDB 架构层面的重大扩展，但官方强调不会放弃进程内模式。

5月11日周一

1 条

数据库·5 天前

Avride 用 ClickHouse Cloud 替换 Iceberg，查询延迟从 20 秒降至百毫秒

自动驾驶公司 Avride 将分析栈从 Apache Iceberg 迁移至 ClickHouse Cloud，解决了 Iceberg 在实时场景下的性能瓶颈。核心痛点在于：Iceberg 的索引查找延迟高达 20 秒，数据摄入耗时数小时，无法满足自动驾驶车队监控的实时性要求。迁移后，索引查找延迟降至 100ms 以内，数据摄入从小时级压缩到秒级。ClickHouse Cloud 的列式存储与实时聚合能力，使 Avride 能够对每辆车的传感器数据、行驶轨迹进行秒级查询与可视化。

5月10日周日

1 条

数据库·6 天前

用 7MB FST 替换 3GB SQLite 数据库，Andrew Quinn 的轮子哲学

Andrew Quinn 在一篇技术笔记的脚注中分享了他的工程哲学：他成功用 7MB 的有限状态转换器（FST）二进制文件替换了一个 3GB 的 SQLite 数据库。他认为"重新发明轮子"并非坏事——在大多数领域，亲手造四五个轮子就能触及真正的前沿，比同等时间的被动学习效率更高。该案例展示了 FST 在数据压缩与检索场景下对传统关系型数据库的极端替代潜力。

5月8日周五

2 条

数据库·8 天前

ClickHouse 26.3 发布：异步插入默认开启，JOIN 重排序与物化 CTE 到来

ClickHouse 26.3 正式发布。本次更新将异步插入（Async Inserts）改为默认开启，显著降低客户端写入延迟；新增更多 JOIN 重排序能力，优化多表关联查询的执行计划；引入物化 CTE（Materialized CTEs），允许公共表表达式被物化复用而非重复计算。这些改动均不涉及破坏性变更，但异步插入默认开启可能影响对写入确认时机有严格要求的用户。

系统与分布式·9 天前

ClickHouse Cloud 用 Make-Before-Break 加速 Kubernetes 垂直扩缩容

ClickHouse Cloud 重新设计了 Kubernetes 集群的扩缩容机制，提出 Make-Before-Break 策略。传统 Kubernetes Deployment 滚动更新采用先删旧 Pod 再建新 Pod（Break-Before-Make）的方式，在垂直扩缩容场景下会导致较长的不可用窗口。新方案先创建新 Pod 并完成数据预热，待新 Pod 就绪后再摘除旧 Pod，将切换延迟从分钟级降至亚秒级。核心改动包括：StatefulSet 配合自定义控制器实现双 Pod 共存、数据目录软链接切换、以及协调器层面的 Quorum 感知流量迁移。

5月7日周四

4 条

数据库·9 天前

ClickHouse Cloud 预览 Postgres 查询洞察：按影响排序慢查询

ClickHouse Cloud 在托管 Postgres 服务中推出 Query Insights 预览版。该功能自动捕获每条查询模式，按影响（总耗时、频率、延迟）排序，并附带慢查询的诊断原因（如全表扫描、索引缺失、锁竞争等）。核心是内置的查询分析引擎，无需外部工具或手动 EXPLAIN，直接在控制台呈现排名和根因。

数据库·9 天前

用 Postgres 做任务队列？这些后果你该知道

一篇技术博客分析了将 Postgres 当作任务队列使用时可能遇到的陷阱。核心问题包括：长事务导致 vacuum 无法回收死元组，表膨胀；行级锁竞争在高并发下退化为串行；无原生优先级调度，需依赖 ORDER BY + SKIP LOCKED，但大偏移量下性能骤降；失败任务重试机制需要额外表或逻辑，缺乏内置死信队列。作者建议：低吞吐场景可用，高吞吐或严格延迟要求应换用 Redis、RabbitMQ 等专用队列。

数据库·10 天前

PlanetScale Insights 上线 Postgres 查询诊断：从延迟曲线定位慢查询

PlanetScale 发布 Insights 功能，为托管 Postgres 数据库提供生产环境查询性能诊断。该工具通过延迟百分位图（p50/p95/p99）展示每个查询模式的中位数与尾部延迟，帮助开发者区分正常波动与异常尖刺。Insights 同时支持 Vitess/MySQL 集群，但本文仅介绍 Postgres 版本。用户可在仪表盘或通过 MCP 服务器访问过去 7 天的查询数据，按延迟、行读取量等维度排序，快速锁定最慢的查询模式。

数据库·10 天前

DuckDB Delta 扩展正式 GA：支持写入、时间旅行与 Unity Catalog

DuckDB Labs 宣布其 Delta 扩展与 Unity Catalog 扩展脱离实验阶段，正式 GA。核心新增包括：INSERT 写入支持（单条或批量），多个 INSERT 在 BEGIN/COMMIT 块内合并为单个 Delta 版本；时间旅行支持，可在 ATTACH 时或查询时按 VERSION 绑定历史快照；Unity Catalog 集成，支持通过 UC 管理 Delta 表。UPDATE/MERGE/DELETE 尚未实现，列入未来计划。性能方面延续了之前的文件跳过（filter pushdown）和元数据缓存（snapshot pinning）优化。

5月6日周三

4 条

系统与分布式·10 天前

用 ClickHouse 存全量 Trace：Odigos eBPF 零代码实现全保真分布式追踪

ClickHouse 与 Odigos 联合发布全保真分布式追踪方案 ClickStack。Odigos 通过 eBPF 实现零代码自动埋点，无需修改应用代码即可捕获完整调用链。所有 trace 数据直接写入 ClickHouse，利用其列式存储和高压缩比支撑海量 span 的实时查询。方案主打消除传统采样追踪的观测盲区，让生产环境可追溯每一个请求。

工具发布·10 天前

ClickHouse 发布官方 Kubernetes Operator，开源免费

ClickHouse 正式推出官方 Kubernetes Operator，基于 Apache 2.0 协议开源且免费使用。该 Operator 支持在 Kubernetes 上部署生产级 ClickHouse 集群，涵盖分片（sharding）、副本（replication）以及 ClickHouse Keeper 集成。用户可通过 Operator 实现集群的水平扩缩容、配置热更新和版本安全升级，降低 ClickHouse 在 K8s 上的运维复杂度。

数据库·11 天前

连续写入下查询就绪：ClickHouse 写入成本仅为 Snowflake 的 1/22

ClickHouse 官方博客对比了在持续数据摄入场景下 Snowflake 与 ClickHouse 的写入侧成本与性能。核心结论是：ClickHouse 在数据写入完成后即可直接用于查询（query-ready），而 Snowflake 依赖微分区（micropartition）与元数据服务，写入路径更重。测试显示 ClickHouse 的写入侧成本仅为 Snowflake 的 1/22，写入侧性价比（cost-performance）高出 31 倍。文章强调，Agentic analytics 等实时分析场景将 query-readiness 从查询侧转移到了写入侧，写入效率成为关键瓶颈。

系统与分布式·11 天前

Figma 自研 PGKeeper 替代 PgBouncer，gRPC 代理实现优先级调度

Figma 在规模增长后遇到 PgBouncer 瓶颈，评估 PGCat 后决定自研连接池代理 PGKeeper（未开源）。PGKeeper 不暴露 PG 线协议，而是通过 gRPC 暴露给客户端，每个查询携带元数据，从而实现基于优先级的准入控制、负载降级和公平调度。后端使用 Go 和 PGX 驱动，设计上更接近应用层代理而非传统数据库连接池。同期，PostgreSQL 19 发布多项新特性，包括 pg_plan_advice 查询优化建议、DDL 提取函数、在线 REPACK/REPACK CONCURRENTLY 以及可观测性改进。

5月5日周二

1 条

工具发布·11 天前

clickhousectl 支持多版本并排对比，实测两处性能优化

ClickHouse 官方博客介绍了 clickhousectl 工具的新能力：在同一台机器上并排启动多个 ClickHouse 版本，方便做性能对比。文章以两个近期性能优化为例演示了该工作流，但未给出具体版本号、优化名称或 benchmark 数据。

5月4日周一

5 条

数据库·12 天前

Figma 开源 PGKeeper：自建 Postgres 连接池替代 PgBouncer

Figma 开源了 PGKeeper，一个专为 Postgres 设计的连接池代理，用于替代 PgBouncer。PGKeeper 采用 Go 语言编写，核心改进包括：支持事务级与语句级两种池化模式，内置健康检查与自动故障转移，以及更精细的连接生命周期管理。与 PgBouncer 的 session/transaction/statement 模式类似，但 PGKeeper 在连接复用策略上做了更激进的优化，例如在事务空闲时主动回收连接，减少长连接泄漏风险。项目已开源，Figma 内部生产环境运行数月。

数据库·12 天前

Gala 迁移 ClickHouse Cloud 实现分析性能提升与成本优化

Gala（一家区块链游戏与娱乐公司）将其分析平台迁移至 AWS 上的 ClickHouse Cloud 数据平台，以提升查询性能并降低基础设施成本。迁移后，Gala 获得了更快的分析查询响应速度，同时减少了运维复杂度和总体拥有成本。ClickHouse Cloud 提供了自动扩缩容、托管运维和按需付费等能力，使 Gala 团队能够专注于业务逻辑而非基础设施管理。

数据库·12 天前

Qonto 用 ClickHouse Cloud 重构可观测性：告别采样，两周查询窗口

欧洲金融科技公司 Qonto 将可观测性基础设施迁移至 ClickHouse Cloud，替代原有方案。核心变化：放弃采样和小时级查询限制，实现两周原始数据查询窗口；对高基数标签数据达到 99.84% 压缩比；基于 ClickHouse MCP 服务器构建 AI 事故辅助系统，允许大模型直接查询可观测性数据。技术关键包括利用 ClickHouse 的列式存储与高压缩特性处理高基数可观测性数据，以及通过 MCP 协议将自然语言查询映射为 SQL 查询。

数据库·13 天前

用 DuckDB 分析 1 万颗卫星：H3 与空间扩展实战

作者 Mark 使用 DuckDB 及其 H3、Lindel、Spatial 扩展，对约 1 万颗在轨卫星的 TLE（两行轨道根数）数据集进行空间分析。核心流程包括：用 DuckDB 加载 TLE 数据，利用 H3 六边形网格对卫星位置做空间索引与聚合，结合 Lindel 扩展处理时间序列轨道变化，最后用 Spatial 扩展执行地理空间查询（如某区域上空卫星密度）。文章展示了 DuckDB 在 OLAP 场景下处理大规模空间-时间数据的可行性，无需专用 GIS 数据库。

数据库·13 天前

DuckLake 规范发布：用简单接口统一数据湖与 DataFrame

DuckDB 团队发布 DuckLake 规范，旨在为数据湖（Data Lake）上的 DataFrame 操作定义一套极简的开放接口。核心思路是将文件格式（Parquet/CSV/JSON）、分区发现、谓词下推、统计信息等底层细节抽象为统一协议，使得任何引擎（DuckDB、Polars、Pandas 等）都能基于同一套规范读写湖上数据，而无需各自实现全套湖格式兼容。规范本身仅定义元数据发现与数据访问两个核心接口，强调"简单到连 Clanker 都能实现"。

4月30日周四

2 条

数据库·17 天前

pgrust 更新：PostgreSQL 兼容度达 67%，加速推进

pgrust 项目发布最新进展，当前 PostgreSQL 兼容性已达到 67%，且加速推进中。该项目旨在用 Rust 重写 PostgreSQL 内核，目标是实现完全兼容的同时获得 Rust 的内存安全和性能优势。67% 的兼容度意味着已有大量 SQL 功能和内部机制被移植，但距离生产可用仍有相当距离。

数据库·17 天前

RLS 听起来很美，用起来全是坑

PlanetScale 发文警告 PostgreSQL Row Level Security（RLS）在实际工程中弊大于利。RLS 允许在数据库层定义行级访问策略，看似优雅，但每新增一个表、列或功能都需要手动同步策略到代码库，测试和扩展几乎不可能。PostgreSQL 的 process-per-connection 架构下，每个用户直接连接数据库还会带来连接管理灾难。文章建议将访问控制放在应用层而非数据库层，避免策略遗漏导致的数据泄露。

4月29日周三

1 条

数据库·18 天前

pgBackRest 归档停更，PostgreSQL 生态备份工具何去何从

PostgreSQL 生态中最主流的开源备份恢复工具 pgBackRest 已被作者 David Steele 归档仓库并标记为"废弃"（notice of obsolescence），原因是作者个人已无精力继续维护。pgBackRest 支持全量/增量备份、并行压缩与传输、WAL 归档与恢复，是许多生产环境的 de facto 标准。社区多位 Postgres 作者（Christophe Pettus、Jan Wieremjewicz、Stefanie Janine Stölting）已发文讨论替代方案与可能的 fork 方向。当前主要替代选项包括 pg_probackup（由 Postgres Professional 维护）和 barman（由 EnterpriseDB 维护），但两者在并行恢复、增量备份策略上与 pgBackRest 存在设计差异。

4月26日周日

1 条

工具发布·20 天前

ClickHouse 在日本正式托管 Langfuse，AI 可观测性平台落地

ClickHouse 宣布在日本市场正式提供 AI 可观测性平台 Langfuse 的托管服务。Langfuse 是面向 AI 代理（Agent）的监控与调试平台，用于追踪 LLM 调用、延迟、Token 消耗和 Agent 行为。此次合作将 Langfuse 的追踪数据存储在 ClickHouse 上，利用其列式存储和实时分析能力处理 AI 工作负载产生的高基数、高吞吐日志。双方定位为"下一代 AI 数据栈"，整合了实时数据平台与 AI Agent 运维监控。

4月24日周五

2 条

数据库·22 天前

pg_clickhouse 新增 JSONB 下推与流式传输，降低查询内存

ClickHouse 的 PostgreSQL 外部表扩展 pg_clickhouse 发布新版本，核心更新包括：JSONB 数据类型支持与下推、日期/时间函数与数组函数的下推优化，以及 HTTP 结果集流式传输。流式传输允许客户端在服务端分批返回结果时即开始消费，避免全量结果集驻留内存，降低大查询的内存峰值。

数据库·22 天前

ClickHouse 服务端自动批处理：异步数据插入

ClickHouse 官方博客介绍了异步数据插入（Asynchronous Data Inserts）功能，将数据批处理逻辑从客户端迁移到服务端。传统上，用户需要在客户端手动攒批（batch）再写入，以平衡写入吞吐与实时性。异步插入模式下，客户端直接发送单条或小批量数据，服务端在后台按配置的时间窗口或缓冲区大小自动合并后写入存储引擎。该功能简化了客户端逻辑，降低了写入延迟抖动，但引入了数据可见性延迟和丢数据风险（服务端崩溃时未刷盘的缓冲数据可能丢失）。

4月23日周四

5 条

数据库·23 天前

ClickHouse 单引擎融合全文搜索与OLAP，叫板Elasticsearch日志场景

ClickHouse 官方发布博客，宣称其引擎现已同时支持全文搜索与大规模分析，成为 Elasticsearch 在日志分析领域的替代方案。文章附带了基准测试数据，但具体测试方法、数据集规模、对比版本等细节未在摘要中披露。核心变化在于 ClickHouse 在列式存储基础上补齐了全文检索能力，使同一套系统既能做高吞吐写入与聚合分析，又能做关键词搜索，无需额外搭建 ES 集群。

大模型·23 天前

OpenAI 发布 GPT-5.5 系统卡，披露安全与能力评估

OpenAI 于 2026 年 4 月 23 日发布 GPT-5.5 System Card，详细披露该模型在安全、偏见、幻觉、越狱攻击等方面的评估结果。系统卡延续了 GPT-4 系列的风险评估框架，涵盖红队测试、自动化安全评测、能力边界测试等内容。技术核心包括对齐训练方法、拒绝机制改进、以及针对多模态输入的安全过滤策略。未提及具体模型架构参数或训练细节。

工具发布·24 天前

ClickPipes 发布 Terraform & OpenAPI GA，全连接器覆盖

ClickHouse 宣布 ClickPipes 的 Terraform 与 OpenAPI 支持正式 GA。该功能允许用户以基础设施即代码（IaC）方式声明式地管理 ClickPipes 资源，现已覆盖全部连接器类型，并改进了易用性。核心变化包括：完整的连接器覆盖、更稳定的 API 接口、以及更好的 Terraform provider 体验。无破坏性变更说明。

工具发布·24 天前

ClickHouse MCP 服务器接入 Google Antigravity，自然语言查数据库

ClickHouse 官方发布了 MCP 服务器，并演示了如何将其接入 Google Antigravity。用户可以用自然语言向 Antigravity 提问，由 MCP 服务器自动生成 SQL 查询 ClickHouse 并返回可视化结果。MCP（Model Context Protocol）是 AI 模型与外部工具之间的标准化协议，ClickHouse MCP 服务器封装了查询执行、Schema 发现等能力，使 LLM 能直接操作 ClickHouse 集群。

数据库·24 天前

ClickHouse Cloud 助力永産POS分析：高速・低コスト・高信頼

永産システム開発（Eisan System Development）采用 ClickHouse Cloud 重构其 POS 数据分析平台，替代原有自建 PostgreSQL 方案。核心诉求是提升查询速度、降低运维成本并保证可靠性。ClickHouse Cloud 的列式存储与向量化执行引擎使聚合查询提速数十倍，同时 Serverless 弹性扩缩消除了容量规划负担。文章未披露具体性能数字或成本对比，但强调了从自建到托管云服务的迁移路径与收益。

4月22日周三

3 条

数据库·24 天前

ClickHouse 集成 Google Lakehouse Runtime Catalog，打通湖仓查询

ClickHouse 宣布与 Google 的 Lakehouse Runtime Catalog 完成集成，使得 ClickHouse 可以直接查询 Lakehouse Runtime Catalog 管理的表元数据。该集成让用户无需手动维护表结构映射，即可在 ClickHouse 中对 Google Cloud 上的湖仓数据执行 OLAP 查询。技术核心在于 ClickHouse 通过外部表引擎对接 Lakehouse Runtime Catalog 的元数据接口，自动发现表 schema 和分区信息，从而消除传统湖仓查询中繁琐的 DDL 同步步骤。

数据库·24 天前

ClickHouse Cloud 迁移至 Axion C4A，查询提速 30–55%

ClickHouse 宣布将其 Google Cloud 集群迁移至 Axion C4A 实例。在 ClickBench 基准测试中，查询性能提升 30–55%，生产环境计算积分消耗降低约 15%。Axion 是 Google 自研的基于 Arm 架构的定制处理器，C4A 实例为其最新一代计算优化型实例。该迁移无需用户侧任何改动，完全由 ClickHouse Cloud 平台侧完成实例替换。

数据库·25 天前

PostgreSQL 19 发布说明初稿完成，9月正式发布

PostgreSQL 19 发布说明初稿由 Bruce Momjian 完成，目标 9 月正式发布，未来数月内将推出 Beta 版。此外，Xata 将其 Postgres 平台核心技术以 Apache 2.0 开源，提供存储层写时复制分支、秒级克隆数据库、非活跃分支自动缩零等能力。TimescaleDB 展示了对超亿行热表的分区、冷数据压缩（最高 95%）和连续聚合预计算方案。Linux 7.0 对 Postgres 的吞吐回归问题也被深入调查，确认影响范围极小。

4月21日周二

2 条

数据库·25 天前

ClickHouse Cloud 将索引分片化，突破单节点内存瓶颈

ClickHouse Cloud 推出索引分片（index sharding）功能，将原本固定于每个副本节点的索引拆分为分布式共享资源。在 PB 级 OLAP 场景下，单节点内存无法容纳全部索引，分片后各副本只持有部分索引分片，查询时跨节点协同扫描。官方称此举降低了单节点内存压力，同时提升了索引分析速度和大规模工作负载的性能。

数据库·26 天前

PlanetScale 详解 Postgres 多租户：共享 Schema 最佳实践，RLS 不推荐

PlanetScale 发布博文，总结 Postgres 多租户架构的几种模式与最佳实践。文章将多租户方案分为三层：数据库集群级隔离、逻辑数据库级隔离、以及共享 Schema（即同一逻辑数据库内通过 tenant_id 字段区分租户）。PlanetScale 明确不推荐依赖 Postgres Row-Level Security (RLS) 实现租户隔离，认为其性能开销大、调试困难、且容易误配置导致数据泄露。推荐的做法是共享 Schema + 应用层强制 tenant_id 过滤，配合连接池或中间件确保租户无法跨域访问。文章还澄清了术语：此前使用的 "row-level isolation" 改为 "shared-schema"，避免与 RLS 混淆。

4月20日周一

1 条

数据库·26 天前

ELO 迁移 Elasticsearch 至 ClickHouse：存储缩至 1/6，成本降 87%

ELO 将支付监控平台从 Elasticsearch 迁移至 ClickHouse，由 Nava 团队实施。存储从 12 TB 降至 2 TB，年基础设施成本削减 87%，300 个实时仪表盘端到端延迟低于 2 秒。核心手段是利用 ClickHouse 的列式存储与高压缩比特性，大幅减少数据冗余；同时以物化视图和预聚合替代 ES 的倒排索引查询模式，消除大量中间结果缓存开销。

4月18日周六

2 条

数据库·28 天前

PgQue：零膨胀 Postgres 队列，用原生锁替代 LISTEN/NOTIFY

PgQue 是一个基于 PostgreSQL 构建的轻量级队列库，核心卖点是"零膨胀"——不依赖 pg_partman、pgmq 等扩展，仅用 PostgreSQL 内置的行级锁（SELECT ... FOR UPDATE SKIP LOCKED）实现消息出队，避免了传统 LISTEN/NOTIFY 机制在大并发下的膨胀问题。项目提供类似 Sidekiq 的 API，支持延迟任务、重试、可见性超时等常见队列语义，所有状态都存储在单张 PostgreSQL 表中，无需额外中间件。

数据库·28 天前

SQLite 临时文件前缀 etilqs_ 的由来

SQLite 在创建临时文件时，文件名统一以 etilqs_ 为前缀。这个看似随机的字符串实际上是 "SQLite" 的字母逆序（etilqs = SQLite 反转）。该设计用于避免临时文件与其他进程的文件冲突，同时方便调试时识别 SQLite 创建的临时文件。临时文件通常用于排序、创建索引、大事务回滚日志等场景，默认存放在系统临时目录下。

4月17日周五

20 条

数据库·29 天前

ClickHouse 原生集成 Iceberg，打通开放表格式查询与写入

ClickHouse 宣布原生集成 Apache Iceberg 等开放表格式，用户可直接查询 Iceberg 表、将 ClickHouse 数据写入 Iceberg，并在 Iceberg、Delta Lake、Hudi 之间做联邦查询。技术核心包括：利用 Iceberg 的 manifest 和 manifest list 实现分区裁剪与谓词下推，避免全表扫描；通过 Parquet 列存格式对齐 ClickHouse 向量化执行引擎，减少序列化开销；未来路线图计划支持 Iceberg REST Catalog、表维护（compaction、snapshot 过期）以及更深的统计信息集成以提升查询剪枝效率。

数据库·29 天前

开源实现 Delta Lake CDC 到 ClickHouse 的实时同步

ClickHouse 博客发布了对 Delta Lake Change Data Feed (CDF) 的深度调研结果，并开源了一套 MIT 协议的 Python 参考实现，用于将 Delta Lake 的变更数据实时同步到 ClickHouse。文章详细分析了 Delta Lake CDF 的工作原理：每次写入事务会生成一个版本号，CDF 通过读取指定版本区间内的新增数据文件（而非解析事务日志全文）来获取变更。实现中需要处理 Schema 演进、删除向量（Deletion Vectors）以及时间旅行（Time Travel）等边界情况。该方案适用于需要将数据湖变更实时入仓的 OLAP 场景。

数据库·29 天前

ClickHouse Cloud 新增 DataLakeCatalog 引擎，直查 Iceberg 与 Delta Lake

ClickHouse Cloud 发布 DataLakeCatalog 引擎，支持直接查询 Iceberg 和 Delta Lake 表。用户连接 Glue 或 Unity Catalog 后，引擎自动发现湖仓中的表，无需手动注册即可用 ClickHouse 的 OLAP 速度执行查询。该引擎将 Catalog 层抽象为统一入口，屏蔽了不同湖格式的元数据差异。

数据库·29 天前

开放表格式能否撑起可观测性？ClickHouse 深度剖析 Lakehouse 路径

ClickHouse 官方博客发文探讨 Iceberg、Delta Lake 等开放表格式（OTF）能否成为可观测性场景的底层存储方案。文章指出，当前 OTF 在写入吞吐、分区管理、数据压缩和实时查询延迟上均未达到生产级可观测性需求，尤其是小文件膨胀和缺乏高效的 time-based 分区剪枝能力。但文章也认为，若引入列式写入缓冲层、自适应 compaction 策略以及针对时间序列的索引优化，Lakehouse 架构有望在未来实现低成本、无锁定的开放可观测性方案。

工具发布·29 天前

otel.fyi 上线：为 OpenTelemetry Collector 配置文档打造搜索优先体验

ClickHouse 团队发布 otel.fyi，一个面向 OpenTelemetry Collector 配置文档的搜索优先站点。该站点将分散在官方文档各处的 receivers、processors、exporters、extensions 配置项集中索引，支持快速模糊搜索与直接跳转。技术核心在于对 OTel Collector 各组件配置 schema 的结构化提取与全文索引，解决了官方文档多页面分散、跨组件查找效率低的问题。

数据库·29 天前

ClickHouse Cloud 推出 Warehouses：实现计算-计算分离

ClickHouse Cloud 发布 Warehouses 功能，在已有存储-计算分离架构之上进一步实现计算-计算分离（compute-compute separation）。每个 Warehouse 是一组独立计算节点，可绑定特定租户或工作负载，共享同一对象存储中的数据。核心机制是计算节点之间通过共享元数据层协调数据可见性，写入在一个 Warehouse 完成后，其他 Warehouse 通过元数据刷新即可读取最新数据，无需跨 Warehouse 拷贝数据。该方案帮助用户实现租户隔离、资源独立扩缩容，并优化整体资源利用率与成本。

数据库·29 天前

用 ClickHouse 一栈实现 Medallion 架构：从原始数据到分析就绪

ClickHouse 官方博客介绍了如何仅用 ClickHouse 自身能力实现 Medallion（青铜/白银/黄金）分层架构，无需引入 Spark、dbt 等外部 ETL 引擎。核心思路是利用 ClickHouse 的物化视图（Materialized View）和 Incremental Materialized View 实现青铜→白银→黄金的增量转换：青铜层直接存储原始数据（如 Kafka 表引擎或 S3 表函数）；白银层通过物化视图做清洗、去重、类型转换；黄金层再做聚合、宽表、业务指标计算。文章强调所有转换都在 ClickHouse 内部完成，利用其列存和向量化执行引擎保证性能，避免数据搬运。

数据库·29 天前

ClickHouse 跑完 Databricks/Snowflake JOIN 基准测试，更快更便宜

ClickHouse 官方博客发布了一项 JOIN 性能对比测试，选取 Databricks 和 Snowflake 公开的 JOIN 密集型 SQL 基准查询，在 ClickHouse Cloud 上原样运行。测试数据规模从 7.21 亿行到 72 亿行，ClickHouse 在所有规模下均比竞品更快且成本更低。这是系列文章的第一篇，后续会深入分析具体优化手段。

数据库·29 天前

ClickHouse 用内存字典替换 JOIN，查询提速 6.6 倍

ClickHouse 官方博客发布 JOIN 基准测试第二弹，延续第一部分的测试场景，通过将 JOIN 替换为内存字典（in-memory dictionaries），在不重新加载数据或修改 Schema 的前提下，实现最高 6.6 倍查询加速，同时成本降低超过 60%。该方案无需变更现有表结构，仅需在查询层将字典查找替代传统 JOIN 操作，利用 ClickHouse 内置的字典引擎将小表全量加载到内存中，避免分布式 JOIN 带来的网络与计算开销。

数据库·29 天前

从 Postgres 到 ClickHouse：数据建模迁移实战指南

ClickHouse 官方博客发布了一篇从 Postgres 迁移到 ClickHouse 的数据建模指南。文章重点介绍了 ReplacingMergeTree 引擎在去重场景下的使用方式，以及如何通过合理的 Ordering Key 和 PRIMARY KEY 策略来优化查询性能。核心思路是将 Postgres 的 OLTP 行存模型转换为 ClickHouse 的 OLAP 列存模型，利用排序键替代传统 B-Tree 索引来加速范围查询与聚合。

工具发布·29 天前

ClickHouse 开源 agentic CLI，加速 Postgres 应用接入 OLAP

ClickHouse 发布开源命令行工具 clickhouse.build，专为已有 Postgres 后端 TypeScript 应用设计，旨在降低引入 ClickHouse 做分析查询的门槛。该 CLI 通过 agentic 方式自动识别 Postgres 中的慢查询或分析型负载，生成迁移建议并配置 ClickHouse 数据同步，开发者无需手动编写 ETL 或修改应用代码。

数据库·29 天前

Polymarket 将分析型查询从 PG 迁至 ClickHouse，支撑实时用户功能

Polymarket 将计算密集型分析工作负载从 PostgreSQL 迁移到 ClickHouse，以支撑用户侧实时功能。迁移后，原本需要数秒的复杂聚合查询降至毫秒级，同时释放了 PG 的 OLTP 能力。文章详细描述了数据管道架构：PostgreSQL 通过 PeerDB 实时 CDC 同步到 ClickHouse，再通过 ClickHouse 物化视图预聚合，最终由 API 层直接查询物化视图返回给前端。关键设计包括使用 ReplacingMergeTree 处理去重、利用 AggregatingMergeTree 做增量聚合，以及通过 ClickHouse 的极简 SQL 语法实现复杂漏斗分析。

数据库·29 天前

Common Room 用 ClickHouse 替换 Postgres 支撑实时客户分析

Common Room 是一家 AI 客户智能平台，将其客户门户的实时分析引擎从 PostgreSQL 迁移至 ClickHouse。迁移后，查询性能显著提升，能够支撑更复杂的实时聚合与多维分析场景。核心替换逻辑是将原先 Postgres 中通过物化视图、索引和查询优化来勉强支撑的 OLAP 负载，直接交由列式存储 + 向量化执行的 ClickHouse 处理，消除了大量维护成本和查询延迟瓶颈。

数据库·29 天前

ClickHouse 推出原生集成 PostgreSQL 托管服务

ClickHouse 宣布推出企业级托管 PostgreSQL 服务，与 ClickHouse 原生集成，面向实时和 AI 驱动应用。该服务主打快速、可扩展，将 PostgreSQL 的 OLTP 能力与 ClickHouse 的 OLAP 能力打通，用户可在同一平台内管理两种数据库。

数据库·29 天前

Redshift 迁移 ClickHouse：OLAP 引擎选型与实战对比

ClickHouse 官方发布博客，从架构、查询性能、存储成本、生态兼容等维度对比 Redshift 与 ClickHouse，并给出迁移建议。文章指出 ClickHouse 在实时写入、列存压缩比、多表 JOIN 及物化视图方面具备优势，而 Redshift 在 AWS 生态集成和事务支持上更成熟。博客未提供具体基准测试数据，侧重定性对比与迁移路径说明。

数据库·29 天前

ClickHouse 用物化路径加速 JSON 查询，Bluesky 看板延迟压至 100ms 以下

ClickHouse 官方博客介绍如何优化 JSON 数据查询，使仪表盘响应时间稳定在 100ms 以下，即使表中包含数十亿 JSON 文档。核心技术是使用物化路径（materialized path）将 JSON 字段映射为列式存储中的扁平列，避免每次查询时解析 JSON 的开销。文章还讨论了如何利用 ClickHouse 的物化列（materialized columns）和投影（projections）来预计算常用 JSON 路径，从而在写入时完成解析，查询时直接读取预计算列。

数据库·29 天前

迁移至 ClickHouse 后查询提速 33 倍，Auditzy 的 OLAP 选型实录

印度初创公司 Auditzy 因 Postgres 性能瓶颈，将核心分析查询迁移至 ClickHouse。迁移后查询速度提升 33 倍，数据压缩率提高 10 倍。ClickHouse 的列式存储与向量化执行引擎是提速关键，而 Postgres 在 OLAP 场景下因行式存储和缺乏向量化导致 I/O 与 CPU 效率低下。

数据库·29 天前

beehiiv 从 Postgres 迁移到 ClickHouse：Newsletter 平台的数据架构演进

beehiiv 是一个帮助创作者和企业的 Newsletter 平台，其数据架构从 Postgres 迁移到了 ClickHouse。迁移的核心原因是 Postgres 在分析型查询和大规模数据聚合场景下性能不足，而 ClickHouse 的列式存储和向量化执行引擎能显著提升查询效率。文章详细介绍了迁移过程中的架构设计、数据同步策略以及最终的性能收益。

数据库·29 天前

云数仓走向解体：从一体化到组件化重构

ClickHouse 官方博客发文指出，云数据仓库（如 Snowflake、Redshift）的一体化霸权时代正在终结。核心论点是：随着数据规模增长和实时分析需求爆发，单一引擎无法同时满足存储、计算、查询、治理等所有需求，行业正走向"解绑"——存储与计算分离、查询引擎与存储格式解耦、元数据与数据分离。博客以 ClickHouse 自身演进为例，说明如何通过 ClickHouseKeeper（基于 Raft）、对象存储集成、以及轻量级物化视图等机制，让用户按需组合组件，而非被锁定在全栈方案中。

数据库·2026/4/17

Trio 迁移 ClickHouse Cloud 存储降 88%，统一支付分析平台

巴西金融科技公司 Trio 将支付分析平台迁移至 ClickHouse Cloud，实现存储减少 88%、查询速度"代际飞跃"。平台处理 2.43 亿+ 笔支付和每日 10 亿+ 事件。核心技术是滑动窗口（sliding window）机制处理延迟到达和重复数据，在实时流与最终一致性之间做权衡，避免传统批处理带来的存储膨胀和查询延迟。

4月16日周四

1 条

数据库·2026/4/16

ClickHouse 官方发布十大最佳实践：主键设计到物化视图全覆盖

ClickHouse 官方博客发布十大最佳实践指南，涵盖主键设计、数据类型选择、物化视图、ReplacingMergeTree 使用及 Join 优化等核心主题。所有建议均基于 1.5 亿行数据集的基准测试验证。文章强调主键列顺序直接影响查询过滤效率，建议将高基数过滤列前置；数据类型应优先选用整数而非字符串以降低存储与计算开销；物化视图适用于预聚合高频查询模式，但需注意增量更新语义。ReplacingMergeTree 的最终一致性特性要求业务层容忍重复数据，Join 优化则推荐使用字典或 Global Join 减少分布式查询的网络开销。

昨天 · 5月16日 周六

5月15日 周五

5月14日 周四

5月13日 周三

5月12日 周二

5月11日 周一

5月10日 周日

5月8日 周五

5月7日 周四

5月6日 周三

5月5日 周二

5月4日 周一

4月30日 周四

4月29日 周三

4月26日 周日

4月24日 周五

4月23日 周四

4月22日 周三

4月21日 周二

4月20日 周一

4月18日 周六

4月17日 周五

4月16日 周四

昨天 · 5月16日周六

5月15日周五

5月14日周四

5月13日周三

5月12日周二

5月11日周一

5月10日周日

5月8日周五

5月7日周四

5月6日周三

5月5日周二

5月4日周一

4月30日周四

4月29日周三

4月26日周日

4月24日周五

4月23日周四

4月22日周三

4月21日周二

4月20日周一

4月18日周六

4月17日周五

4月16日周四