InfoPie · AI · 大模型 · 数据库

昨天 · 5月16日周六

6 条

大模型·12 小时前

本地 Qwen 3.6 量化版单文件编码任务直追前沿模型

Reddit 用户用同一段 prompt（单 HTML 文件 + Canvas 实现汽车驾驶动画，含视差滚动、车轮旋转、光影效果）对比了本地量化模型与前沿闭源模型的编码能力。本地端测试了 Qwen3.6-27B/35B、Qwen3.5 9B/4B、Gemma-4-31b 等量化版本（Q4_K_M/Q8），在 Ryzen 5 5600 + 24GB DDR4 + RX 5700 XT 8GB 上运行，Qwen3.6-35B A3B Q4_K_M 达到 12.13 tok/s，而 Qwen3.6-27B 仅约 2.7 tok/s。前沿端通过 Perplexity 调用 Claude Sonnet 4.6 Thinking、Gemini 3.1 Pro Thinking、GPT 5.4 Thinking、Kimi k2.6 Thinking。评测聚焦于动画真实感、视差层次、车轮旋转与车身联动等视觉质量，而非标准 benchmark 分数。

推理引擎·15 小时前

llama.cpp b9180 支持 MTP 推测解码与 GDN 部分回滚

llama.cpp 发布 b9180 版本，核心变化是支持 Multi-Token Prediction (MTP) 用于推测解码（speculative decoding）。该版本新增了 draft-mtp 模型标识，允许目标模型在推测解码中回滚至多 draft_max 步，通过存储 GDN（Gated Delta Net）中间状态实现部分序列回滚（partial seq_rm）。Metal 和 Vulkan 后端均已适配 GDN 部分回滚逻辑。同时修复了循环记忆模型中的位检查 bug，并禁用了基于 RS 的 MTP 与其他推测类型的组合使用。

推理引擎·15 小时前

Strix Halo 实测：llama.cpp MTP 让 27B 模型生成速度翻倍

Reddit 用户在高性能 APU Strix Halo（AMD Ryzen AI MAX+ 395）上对 llama.cpp 的 MTP（Multi-Token Prediction）功能进行了基准测试。测试使用 Qwen3.6-27B 和 35B-A3B 模型，对比开启与关闭 MTP 时的端到端性能。结果显示，27B 模型在 5 轮对话场景下总耗时从 258.65 秒降至 200.55 秒（-22.46%），生成吞吐从 7.61 t/s 提升至 17.98 t/s（+136%），但 Prompt 处理吞吐下降约 18%。35B 模型则整体持平或略慢，生成速度虽有提升但 Prompt 处理降幅更大，多轮对话总耗时基本持平。MTP 在小模型、长上下文场景下收益显著，但对大模型或短上下文场景收益有限。

论文速递·22 小时前

δ-mem 提出在线记忆机制，让 LLM 长上下文推理效率提升 3 倍

大模型在处理超长上下文时，KV cache 随序列长度线性增长，导致推理延迟和显存开销急剧上升。δ-mem 提出一种在线记忆机制，将历史上下文压缩为可更新的记忆状态，仅在需要时从记忆中检索相关信息，从而避免全量 KV cache 的存储与计算。实验表明，在 128K 上下文长度下，δ-mem 将推理延迟降低约 3 倍，显存占用减少 60% 以上，同时保持与全注意力基线相当的任务准确率。

论文速递·23 小时前

论文详述 SSD 写入原理：从闪存特性到写入优化

VLDB 2026 收录论文《How to Write to SSDs》系统阐述了 SSD 的写入机制与优化策略。论文首先剖析 NAND 闪存的物理特性（页级读写、块级擦除、写后擦除约束），然后提出一套面向现代 SSD 的写入方法论，涵盖写入缓冲、垃圾回收感知调度、多流写入（Multi-Stream Writing）以及主机端 FTL 协同设计。实验表明，合理利用写入排序与并行性可将 SSD 写入吞吐提升 2–4 倍，同时显著延长设备寿命。该工作为数据库存储引擎和文件系统的 SSD 适配提供了理论指导。

大模型·1 天前

Qwen3.6-35B-A3B 登顶 Terminal-Bench 2.0，超越 Gemini 2.5 Pro

Qwen3.6-35B-A3B 与 9B 模型正式登上 Terminal-Bench 2.0 公开榜单。little-coder 脚手架配合 Qwen3.6-35B-A3B 取得 24.6%（±3.2）的成绩，超越 Gemini 2.5 Pro（19.6%）和 Qwen3-Coder-480B（23.9%），证明了脚手架-模型协同优化在困难 agentic 基准上的有效性。Qwen3.5-9B 获得 9.2%，表明 10B 以下本地模型也能在硬基准上被量化评估。

5月15日周五

18 条

工具发布·1 天前

Claude Code v2.1.143 发布：插件依赖强制、背景会话直接编辑工作副本

Anthropic 于 2026 年 5 月 15 日发布 Claude Code v2.1.143。核心变更包括：插件依赖强制管理——禁用插件时若其他插件依赖目标则拒绝操作并给出禁用链提示，启用时自动强制启用传递依赖；新增 /plugin 市场浏览面板中每轮和每次调用的预估上下文成本；新增 worktree.bgIsolation:"none" 配置，允许背景会话直接编辑工作副本而无需 EnterWorktree，适用于 worktree 不实用的仓库。此外修复了 .credentials.json 损坏导致 CLI 启动挂起、Windows Terminal 右键粘贴、stop hook 无限循环等十余项问题。

数据库·1 天前

PostgreSQL 可选存储引擎实战指南：从 ORC 到 S3

PostgreSQL 生态中出现了多种可选存储引擎，允许用户绕过默认的堆存储（heap storage），针对不同工作负载选择底层数据布局。文章系统梳理了当前主流方案：Zedstore（列存，面向 OLAP）、ORC for PG（Hive ORC 格式）、Parquet for PG（Arrow 生态列存）、pg_lakehouse（S3 数据湖查询）、pg_strom（GPU 加速）、以及面向时序的 TimescaleDB 压缩引擎。每种引擎在写入路径、索引支持、MVCC 兼容性上各有取舍，部分引擎牺牲了 PostgreSQL 的完整事务语义以换取分析查询性能。

推理引擎·1 天前

Orthrus 冻结主干网实现 7.8× 加速，输出分布与 Qwen3 完全一致

Orthrus 提出一种扩散注意力模块，注入冻结的 Qwen3-8B 自回归 Transformer 每层，实现最高 7.8× tokens/forward 加速。核心思路：扩散头并行投影 K=32 个 token，AR 头二次验证并接受最长匹配前缀，两路共享同一 KV cache。仅训练 16% 参数、<1B token、8×H200 上 24 小时。与 EAGLE-3、DFlash 等推测解码方案相比，无需外部草稿模型、无需独立 KV cache、零 TTFT 惩罚；KV 开销仅约 4.5 MiB。MATH-500 上接受长度 11.7 vs DFlash 7.9 vs EAGLE-3 3.5。单步去噪优于多步，KL 蒸馏优于 CE。局限：受限于冻结基座模型能力，仅 Qwen3 评估，仅支持贪心+拒绝采样。

工具发布·1 天前

Equibles 开源 MCP 服务器，让本地 LLM 获取实时美国金融数据

开发者 Daniel 发布 Equibles，一个自托管的开源 MCP 服务器，专为本地大模型提供实时美国金融数据。它爬取并暴露 SEC 文件（10-K/10-Q/8-K 全文搜索）、13F 机构持仓、内幕交易、国会交易、FINRA 做空数据、FRED 经济指标、CFTC 期货持仓、CBOE VIX/看跌看涨比以及日线价格与技术指标，全部以 MCP Tool 形式暴露。无需云依赖、无需 API Key、无遥测，完全运行在用户本地机器上，兼容 Claude Code/Desktop、Cursor 及任何 MCP 客户端。

推理引擎·1 天前

离线行李箱机器人：Jetson Orin NX 跑 Gemma 4，200ms 缓存 TTFT

一位开发者用 Jetson Orin NX SUPER 16GB 打造了完全离线的行李箱机器人 Sparky，无 WiFi/BT/蜂窝网络。核心推理引擎为 llama.cpp 加载 Gemma 4 E4B（Q4_K_M 量化，q8_0 KV cache，flash attention），12K 上下文，缓存 TTFT 约 200ms，持续 14-15 tok/s。语音采用 SenseVoiceSmall STT + Piper TTS（43Hz 口型同步），视觉与 OCR 由 Gemma 4 原生完成，不再需要 BLIP 子进程。30+ 传感器数据每轮以自然语言拼入 prompt。最大优化点：将 persona 和工具描述放在 prompt 顶部，历史在中间，动态传感器和视觉数据放在最新用户轮次末尾，避免系统块内动态内容破坏前缀缓存。

大模型·1 天前

Intern-S2-Preview：35B 科学多模态模型通过任务缩放逼近万亿参数性能

上海 AI Lab 发布 Intern-S2-Preview，一个 35B 参数的科学多模态基础模型。不同于传统参数和数据缩放，该模型探索"任务缩放"——通过增加科学任务的难度、多样性和覆盖度来解锁模型能力。基于 Qwen3.5 继续预训练，采用从预训练到强化学习的全链条训练管线，在多个核心专业科学任务上达到与万亿参数级 Intern-S1-Pro 相当的性能。技术亮点包括：RL 阶段引入共享权重 MTP（Multi-Token Prediction）配合 KL 损失，减少训练与推理行为不匹配，显著提升 MTP 接受率和 token 生成速度；同时采用 CoT 压缩技术缩短推理响应长度。该模型也是首个同时具备材料晶体结构生成能力和强通用能力的开源模型。

大模型·1 天前

Anthropic 用 5 天让 Claude 自主攻破 macOS 安全防线

Anthropic 发布 Mythos 项目成果：Claude 在无人类干预的情况下，花费 5 天时间自主发现并利用 macOS 零日漏洞，成功突破系统安全防线。Mythos 的核心技术路线是让模型在沙箱环境中反复执行"假设-验证-利用"循环，结合代码生成与动态调试能力，逐步缩小攻击面。该实验展示了前沿 AI 模型在复杂系统安全评估中的自主能力，也引发了对 AI 驱动攻击的担忧。

系统与分布式·1 天前

Anyscale 推出持久化 Cluster 与 Actor 仪表盘，可回溯调试 Ray 工作负载

Anyscale 为其托管 Ray 平台新增了完全持久化的 Cluster Dashboard 和 Actor Dashboard。传统 Ray 仪表盘仅在集群运行时可用，一旦作业结束或集群关闭，历史状态即丢失。新方案将仪表盘数据持久化存储，用户可在作业完成后回溯查看集群资源使用曲线、Actor 生命周期、任务分布等关键指标，无需重新运行作业即可进行事后调试。技术核心是将 Ray 的运行时指标导出到外部存储后端，并通过独立于集群生命周期的 Web 服务提供查询接口。

推理引擎·2 天前

本地实测 Qwen 3.6 MTP：35B MoE 模型 300K 上下文仅用 28GB VRAM

Reddit 用户使用 unsloth 发布的 Qwen3.6-35B-A3B-UD-Q5_K_S（MTP 版）在本地进行多轮长上下文测试，构建 Pygame 迷宫游戏。在 32GB RDNA 4 显卡上，35B MoE 模型在 Q4_0 量化下达到 300K 上下文，VRAM 占用 28.3GB，仍有空间扩展到 400K。用户实测 MTP 版本在 27B 稠密模型上带来约 1.5 倍 tokens/s 加速，但 35B MoE 版本仅提升不到 10%。测试中 MoE 模型在 200K 附近出现稳定性问题，切换至 Q8_0 量化的 27B 模型后解决。MTP 推理需使用 llama.cpp 的 MTP 原型 Docker 镜像（haven oammo/llama:vulkan-server），后端为 Vulkan。

向量库与RAG·2 天前

AlayaLaser：面向高维向量的磁盘图索引系统，计算瓶颈成新突破口

论文发现，磁盘图索引ANNS在高维向量场景下性能瓶颈并非I/O，而是计算（compute-bound）。作者通过适配Roofline模型分析现有系统，提出AlayaLaser：利用SIMD指令优化磁盘数据布局以缓解计算瓶颈，并设计基于度的节点缓存、聚类入口点选择、提前分发策略等优化。实验表明，AlayaLaser不仅超越现有磁盘图索引系统，甚至可匹敌或超越内存索引系统。

论文速递·2 天前

数据流时序归因：轻量级溯源新范式

数据溯源（provenance）在数据库查询解释和科学工作流审计中应用广泛，但细粒度溯源图随数据量超线性增长，在 Apache Flink 等流系统中扩展性差。本文提出 temporal attribution（时序归因），一种轻量级溯源形式，借鉴 Temporal Interaction Networks（TINs）对数据流算子间的量化数据交换进行建模，避免 tuple 级依赖元数据。作者将数据分为离散型和液态型，定义五种时序溯源查询类型，并提出基于状态的索引方法，旨在为大规模数据流分析提供实用工具。

数据库·2 天前

SEMA-SQL：用LLM语义算子扩展关系代数，自动生成混合查询

传统SQL无法处理实体语义匹配、非结构化文本分析等需求，而现有语义算子系统虽引入LLM能力，却要求用户手动编排查询管线。SEMA-SQL提出混合关系代数（HRA），将关系算子与LLM用户自定义函数（UDF）统一为声明式抽象，系统自动完成三件事：通过上下文学习生成含自然语言规格说明的HRA查询、基于代价的变换与UDF重写进行优化、以及通过智能批处理将语义连接中的LLM调用量平均减少93%。实验表明该方法显著扩展了查询能力。

论文速递·2 天前

AI Agent 在 2 万文件工作区中仅达 43% 准确率，Workspace-Bench 发布

现有 AI Agent 评测多聚焦于单文件或合成数据，缺乏对真实工作区中大规模文件依赖关系的评估。为此，研究者提出 Workspace-Bench，构建了包含 5 种工人画像、74 种文件类型、20,476 个文件（最大 20GB）的真实工作区，并设计了 388 个任务（共 7,399 条评分细则），每个任务附带文件依赖图，要求 Agent 完成跨文件检索、上下文推理与自适应决策。评测 4 种 Agent 框架与 7 个基础模型后发现，最佳 Agent 仅达约 60%，远低于人类 80.7%，平均仅 43.3%。同时提供 Workspace-Bench-Lite（100 任务子集），评测成本降低约 70%。

论文速递·2 天前

PersonalHomeBench：智能家居Agent评测框架发布

arXiv 论文提出 PersonalHomeBench，一个用于评估基础模型在个性化智能家居环境中作为 Agent 助手的基准测试。该基准通过迭代过程逐步构建丰富的家庭状态，生成个性化、上下文相关的任务，并提供 PersonalHomeTools 工具箱支持家庭信息检索、设备控制和情境理解。实验表明，随着任务复杂度增加，模型性能系统性下降，在反事实推理和部分可观测场景下失败明显，后者需要有效的工具调用来收集信息。

系统与分布式·2 天前

混合草图法突破动态图连通性空间瓶颈，稀疏图上节省15%存储

动态图连通性是图算法基础问题。现有理论方案（per-vertex线性草图）可将空间降至Θ(V log² V)，与边数无关，但实际中每个顶点草图需数千字节，仅在极稠密图上才划算。本文发现稀疏真实图常含稠密核心，提出混合草图法：对稠密核心用草图压缩，对稀疏外围无损存储。新算法HybridSCALE在完全动态和半流式场景下空间复杂度为O(min{V+E, V log V log(2+E/V)})，在稀疏图上匹配无损界，稠密图上匹配草图界。核心组件BalloonSketch是一种新l0采样器，将per-vertex草图大小降低最多8倍。HybridSCALE是首个在真实图上节省空间的草图动态连通系统，相比无损基线在稀疏图（平均度<10）上节省最多15%空间，在稠密图（平均度>1000）上节省最多60%。

工具发布·2 天前

Croissant Baker：本地化ML数据集元数据生成工具

Croissant 已成为 ML 数据集元数据标准（JSON-LD 格式），NeurIPS 要求数据集投稿必须附带 Croissant 元数据。但现有生成流程通常依赖上传到公有平台，这对受管控的大型本地数据集不可行。本文发布 Croissant Baker，一个本地优先、开源的命令行工具，通过模块化 handler 注册表直接从数据集目录生成经过校验的 Croissant 元数据。在 140+ 数据集上评测，包括 MIMIC-IV（8.86 亿行、374 个 Parquet 文件），与人工标注或标准推导的 ground truth 对比，跨多个领域达到 97–100% 一致率。

论文速递·2 天前

量子退火数据库工具箱：从物理视角分析查询优化难度

量子计算在数据管理中的应用日益受到关注，但量子设备的物理行为与数据库问题结构之间的关系尚不清晰。本文提出一个计算工具箱，从物理信息视角对数据管理问题导出的量子退火过程进行系统数值分析。该工具箱能够研究能隙、本征态结构等谱与动力学性质——这些性质无法通过直接硬件测量获得，但对理解计算难度和扩展行为至关重要。方法还提供导出量与可视化技术，支持优化动力学解读、与经典物理模型的结构相似性识别，以及降阶有效描述的构建。这项工作为评估量子方法并指导未来协同设计建立了原则性基础。

论文速递·2 天前

RAM：用检索增强建模突破关系数据库图结构局限

关系数据库中的多表归一化结构给深度神经网络带来挑战，现有方法依赖模式定义图，忽略元组属性中的隐式语义且连接僵化。本文提出检索增强建模（RAM）框架，将元组属性视为token，用随机游走构建上下文文档，通过信息检索估计语义相关性。在此基础上引入两种检索增强：ATRA利用表内相关性做对比学习，ETRA跨表链接语义相关元组增强图连通性。模型采用属性嵌入、特征融合和图聚合的分层架构。在五个真实关系数据库上，RAM在多种预测任务中一致超越现有基线。

5月14日周四

16 条

工具发布·2 天前

Claude Code v2.1.142 新增 agents 多参数，修复 macOS 休眠后守护进程崩溃

Anthropic 发布 Claude Code v2.1.142，为 claude agents 新增 --add-dir、--settings、--mcp-config、--permission-mode、--model、--effort 等配置参数，支持更灵活的后台会话调度。Fast 模式默认模型从 Opus 4.6 升级至 Opus 4.7。关键修复包括：MCP_TOOL_TIMEOUT 此前对远程 HTTP/SSE MCP 服务器实际生效上限为 60 秒，现已修复；macOS 休眠唤醒后守护进程将时钟跳变视为空闲超时导致后台会话消失的问题，改为检测时钟跳变而非将其计入空闲时间；二进制升级后（如 brew upgrade）守护进程无法正常退出导致分发 agent 崩溃循环的问题也已修复。此外修复了 Windows 网络驱动器工作目录下的死锁、256 色终端背景色溢出等多项稳定性问题。

推理引擎·2 天前

vLLM 发布 TurboQuant 全面评测：FP8 仍是 KV Cache 量化最佳默认方案

vLLM 官方博客对 TurboQuant 系列 KV Cache 量化方法进行了首次全面评测。核心结论：FP8（--kv-cache-dtype fp8）依然是生产环境的最佳默认选择，提供 2 倍 KV Cache 容量且精度损失可忽略，在内存受限场景下性能显著优于 BF16。TurboQuant k8v4 相比 FP8 无明显优势，仅将容量提升至 2.4 倍但带来吞吐和延迟的持续下降。4bit-nc 变体在边缘部署等内存极度受限场景下有一定实用价值，但需付出精度、延迟和吞吐的折中。k3v4-nc 和 3bit-nc 在推理和超长上下文任务上精度下降明显，同时严重劣化延迟和吞吐，不适合生产部署。

数据库·2 天前

PostgreSQL 批量更新修复 11 个 CVE，18.4/17.10 同步发布

PostgreSQL 全球开发组发布 18.4、17.10、16.14、15.18 及 14.23 五个版本，累计修复 11 个安全漏洞（CVE）。本次更新为安全修复版本，不包含破坏性变更，建议所有运行受影响版本的用户尽快升级。具体漏洞细节尚未完全公开，但涉及多个核心组件，包括查询执行、权限检查及复制协议等模块。

向量库与RAG·2 天前

IBM 开源 32K 上下文多语言 Embedding 模型，Apache 2.0 许可

Hugging Face 博客发布 IBM Granite Embedding Multilingual R2，这是一款采用 Apache 2.0 开源许可的多语言 Embedding 模型。该模型支持 32K 上下文窗口，参数量低于 100M，在检索质量上达到同规模最佳水平。模型面向多语言检索与 RAG 场景设计，支持长文档嵌入，适合资源受限的部署环境。

推理引擎·2 天前

RTX 5000 PRO 48GB 实测：4400 tok/s 提示处理，vLLM 部署 Qwen3 27B 全精度缓存

一位零 PC 组装经验的用户以 $4300 购入 RTX 5000 PRO 48GB，总装机成本 $5600，成功部署 Qwen3.6-27B-FP8 模型并启用全精度 KV 缓存。实测提示处理（PP）速度达 4400 tok/s，文本生成（TG）速度 50-80 tok/s。用户全程借助 Claude Code 完成 Linux 环境配置与 vLLM 调优，消耗了每周 20 次 Claude Code Max 限额的 50%。该卡在 48GB 显存下可支撑 200K 上下文窗口的 BF16 KV 缓存，性能超出预期。

大模型·2 天前

Anthropic 强制默认 Adaptive Thinking，固定推理预算选项被废弃

Anthropic 宣布废弃 Opus 4.6 和 Sonnet 4.6 上的固定推理预算（extended thinking）模式，强制默认使用 adaptive thinking。新模型 Opus 4.7 已完全移除 manual extended thinking，调用时返回 400 错误。社区用户质疑此举是成本削减策略：API 用户按 token 付费，却无法选择花更多钱换取固定推理预算来保证回答质量。用户还指出，Claude Code 在关闭 adaptive thinking 后质量下降问题消失，且未见 adaptive thinking 在效果上优于固定预算的案例。

大模型·2 天前

Anthropic 推出 Claude 认证架构师考试

Anthropic 发布了 Claude Certified Architect 认证考试，面向使用 LLM 的工程人员。考试内容涵盖评估（evals）、护栏（guardrails）、RAG 的正确实现、多智能体编排，以及何时不应使用 LLM。考试难度在于材料本身不繁重，但考题全面深入，需要真正理解工程实践而非死记硬背。认证入口通过 Skilljar 平台开放，同时配套官方学习视频。

训练框架·2 天前

Anyscale 发布 Agent Skill 工具，强化 LLM 后训练阶段

Anyscale 推出 Agent Skill 工具，专为 LLM 后训练（post-training）阶段设计，帮助开发者将智能体能力注入模型。该工具聚焦于后训练环节，而非预训练或推理部署，核心是让模型学会工具调用、多步推理等 agent 行为。目前公开信息有限，具体实现细节、支持的数据格式和训练策略尚未披露。

向量库与RAG·2 天前

本地 LLM 做个人知识库：RAG 落地消费硬件的真实痛点

Reddit 用户发帖询问是否有人真正把本地 LLM 当作日常个人知识库使用（非编码、非实验），引发社区讨论。核心痛点集中在三方面：消费级硬件上 RAG 的检索精度不可靠，用户需要反复核对结果；LlamaIndex、Ollama 等工具链变化太快，两年前的教程已失效；个人文档积累后上下文长度管理困难。社区反馈显示，目前尚无开箱即用的方案，维护成本接近一份兼职工作。

系统与分布式·3 天前

用 Ray 搭建多模态数据管道：从异构文件到训练就绪

Anyscale 发布博客，介绍如何用 Ray 构建可扩展的多模态数据管道。核心挑战在于图像、视频、音频、文本等异构数据需要不同的解码、清洗、增强逻辑，且数据量远超单机内存。文章提出基于 Ray Data 的架构：用 map/groupby/flat_map 等算子表达 ETL 流程，利用 Ray 的分布式对象存储和自动弹性调度处理 PB 级数据。关键设计包括：将 I/O 密集型解码与 GPU 密集型增强分离为不同 stage，通过 lazy 执行和 checkpoint 避免重复计算，以及用 Ray 的 actor 池管理外部 API 调用限流。

大模型·3 天前

开发者实测：Claude Code Opus 4.7 零错误完胜 GPT-5.5 Codex，但价格差距在缩小

一位开发者用两个真实任务（PR 分类机器人与实时代码审查 UI）对比了 Claude Code（Opus 4.7）和 GPT-5.5 Codex（通过 Cursor）。Claude 在 12 分钟内构建 36 个文件，首次运行零错误，总成本约 $2.50；Codex 因 Cursor 环境问题未能完成第一个任务，第二个任务需补丁修复无限循环，架构更紧凑（28 个文件），成本约 $2.04（便宜 18%）。作者认为复杂架构任务仍首选 Opus，但 Codex 在紧凑型任务中已具备竞争力，定价差距首次引起关注。

工具发布·3 天前

Simon Willison 发布 Datasette IP 速率限制插件 0.1a0

Simon Willison 发布 datasette-ip-rate-limit 0.1a0 插件，用于保护 Datasette 实例免受恶意爬虫的过度请求。该插件支持按路径配置速率限制规则，可设置时间窗口、最大请求数和封禁时长，并支持白名单路径和自定义请求头（如 Fly-Client-IP）。生产配置已在 datasette.io 上线，对 /global-power-plants/ 等演示数据库路径限制为每 60 秒最多 60 次请求，超限封禁 20 秒。插件由 Codex（GPT-5.5 xhigh）辅助生成。

推理引擎·3 天前

llama.cpp b9142 发布：为 Adreno GPU 添加 Q5_0/Q5_1 MoE 支持

llama.cpp 发布 b9142 版本，核心变更为 OpenCL 后端为 Adreno GPU 新增 Q5_0 和 Q5_1 两种 5-bit 量化格式的 MoE（混合专家）支持。该 PR 由 Qualcomm 工程师贡献，同时修复了潜在的内存泄漏问题，并针对非 Adreno 平台抑制了未使用变量警告。此次更新不涉及 API 破坏性变更，属于推理引擎后端的量化能力扩展。

推理引擎·3 天前

llama.cpp b9141 新增 vLLM 兼容的 continue_final_message 标志

llama.cpp 发布 b9141 版本，核心变化是 server 和 webui 端新增 continue_final_message 标志，用于兼容 vLLM 和 transformers API。该标志与 add_generation_prompt false 配合时，会触发已有的 prefill_assistant 代码路径，实现对话续写功能；与 add_generation_prompt true 互斥，违反时返回 HTTP 400。WebUI 的 Continue 按钮已接入此标志。本次发布不涉及底层推理逻辑改动，纯 API 对齐，为后续 per-template prefill 改造铺路。

推理引擎·3 天前

llama.cpp b9140 修复 Adreno 上 MoE 预热崩溃

llama.cpp 发布 b9140 版本，核心修复是 OpenCL 后端在 Adreno GPU（高通移动 GPU）上预热 MoE（混合专家）模型时的崩溃问题（issue #22876）。该版本同步更新了各平台二进制包，包括 macOS（Apple Silicon / Intel）、Linux（x64/arm64/s390x，支持 Vulkan/ROCm/OpenVINO/SYCL）、Android arm64 及 Windows x64。无 Breaking Change。

数据库·3 天前

减少数据库出站流量：查询优化实现性能与成本双赢

PlanetScale 发文指出，数据库出站（egress）流量是云上被忽视的成本与性能瓶颈。多数云厂商对公网出站流量按量计费，而查询返回过多数据或频率过高是主因。文章以 Postgres 的 JSONB 列存储富文本内容为例，说明 SELECT * 返回整个 content 字段会浪费大量带宽。核心优化手段包括：只查询需要的列、使用 LIMIT/分页、利用 Postgres 的 TOAST 机制避免大字段随行传输、以及通过物化视图或缓存减少重复查询。这些原则适用于所有主流云数据库。

5月13日周三

10 条

工具发布·3 天前

Claude Code v2.1.141 新增终端序列与工作负载身份联合

Anthropic 发布 Claude Code v2.1.141。核心更新包括：新增 terminalSequence 字段，使 hook 可在无控制终端时发送桌面通知、窗口标题和铃声；支持 CLAUDE_CODE_PLUGIN_PREFER_HTTPS 环境变量，允许通过 HTTPS 而非 SSH 克隆 GitHub 插件；新增 ANTHROPIC_WORKSPACE_ID 环境变量用于工作负载身份联合，可将令牌范围限定到特定工作空间。此外，claude agents 新增 --cwd 参数限定会话列表到指定目录；/feedback 可附带最近 24 小时或 7 天的会话记录；重做菜单新增"Summarize up to here"压缩早期上下文。修复了在 Bedrock/Vertex/Foundry 上后台侧查询发送不可用 Haiku 模型 ID 的问题，以及 Windows 上 daemon 状态命令的异常处理。

大模型·3 天前

Anthropic 将 Claude --print 划入 SDK 计费，CLI 自动化方案遭堵

Anthropic 宣布从 6 月 15 日起，Claude CLI 的 --print 模式将被视为"程序化"SDK 使用，不再计入 Pro/Max 套餐的 CLI 免费额度，而是走独立的月度信用额度（$100/月）。这意味着此前社区利用 --print 实现脚本化、自动化调用 Claude（绕过 API 计费）的玩法正式被堵住。用户若想继续以编程方式控制 Claude，要么购买 SDK 信用包，要么改用官方 Claude Code 交互式模式。

推理引擎·3 天前

AMD MI50 八卡跑 Qwen 3.6 27B，52.8 tps 推理吞吐实测

社区用户在一台 8×AMD MI50（2018 年发布，gfx906 架构）的机器上，用 vLLM 分支 v0.20.1 + ROCm 7.2.1 跑 Qwen3.6-27B 全精度模型（无量化、无 MTP、无 DFlash），测得 TG 52.8 tokens/s、PP 1569 tokens/s（15K prompt）。TP=8 时模型刚好装下，TP=2 也能跑约 34 tps。作者认为该配置已可用于 Claude Code 或 Hermes 等 agent 场景，并指出通过 PCIe switch 降延迟、优化 ROCm 上的 DFlash/MTP 仍有提升空间。

数据库·3 天前

rqlite 接管 SQLite WAL，实现分布式强一致复制

rqlite 作者 Philip O'Toole 撰文详解该分布式数据库如何直接操控 SQLite 的预写日志（WAL）。传统方案通过 SQLite 的备份 API 或 VFS 层获取数据变更，但 rqlite 选择直接解析 SQLite WAL 的帧结构，提取已提交的事务记录，再通过 Raft 共识协议在集群中复制。核心挑战在于 WAL 格式的版本兼容性、帧校验与页边界对齐。该方案避免了 SQLite 备份 API 的全局锁开销，同时保留了 SQLite 原生的 ACID 事务语义。

工具发布·3 天前

TextGen 从 Web UI 变身原生桌面应用，对标 LM Studio

TextGen（原名 text-generation-webui，作者 oobabooga）发布原生桌面应用版本，提供 Windows/Linux/macOS 免安装便携构建。项目自 2022 年 12 月启动，早于 LLaMA 和 llama.cpp。新版本通过 Electron 封装实现零安装体验，解压即用，所有数据保存在 user_data 目录内。支持 CUDA、Vulkan、ROCm、CPU-only 及 Apple Silicon/Intel 构建。核心差异化：零遥测（无出站请求）、内置 ik_llama.cpp 提供 IQ4_KS/IQ5_KS 等新量化类型、集成 ddgs 库实现 Web 搜索工具调用、支持 .py 脚本/HTTP MCP/stdio MCP 三种工具调用方式。

推理引擎·3 天前

Ovis2.6-80B-A3B：80B参数MoE多模态模型，推理仅激活3B

阿里云AIDC发布Ovis2.6-80B-A3B多模态大模型，将LLM骨干升级为Mixture-of-Experts（MoE）架构，总参数80B但推理时仅激活约3B参数，大幅降低服务成本。模型支持64K上下文窗口和2880×2880高分辨率图像输入，新增"Think with Image"能力——模型可在Chain-of-Thought推理过程中主动调用裁剪、旋转等视觉工具对图像区域进行多轮自反思分析，提升复杂视觉任务的准确率。此外，OCR、文档和图表理解能力得到强化，特别适合长文档问答场景。

工具发布·3 天前

Claude Code 终端隐藏命令：资深开发者分享 5 个提效技巧

一位资深 Linux 开发者分享了使用 Claude Code 6 个月后发现的 5 个隐藏命令。/statusline 可自定义终端底部状态栏，显示模型、分支、上下文占比等信息。! 前缀可直接在对话中执行 shell 命令，输出保留在对话上下文，按 Ctrl+B 可将长命令切到后台。@ 加文件名触发路径自动补全，比让 Claude 自行搜索更精准。/add-dir 可将多仓库项目加入同一会话。/btw 可发起简短旁路提问而不打断当前任务，长对话可用 /branch 分支到新会话。

系统与分布式·3 天前

OpenAI 为 Codex 构建 Windows 沙箱：安全执行编程 Agent

OpenAI 公开了为 Codex 编程 Agent 构建 Windows 沙箱的技术方案。核心挑战在于 Windows 缺少 Linux 的 seccomp/namespace 等原生隔离原语，团队采用应用层沙箱策略：通过文件系统过滤驱动限制 Agent 对用户目录的读写范围，仅允许写入临时沙箱目录；网络层面使用 Windows Filtering Platform (WFP) 限制出站连接，阻止 Agent 访问内部网络或外泄数据。沙箱内还集成了进程白名单机制，防止 Agent 启动未授权的可执行文件。该方案在安全性与 Agent 执行真实编码任务的能力之间做了权衡，未依赖虚拟化层，以降低延迟和资源开销。

系统与分布式·4 天前

OpenAI 披露 TanStack npm 供应链攻击细节与防御措施

OpenAI 发布官方回应，披露了针对 TanStack 生态的 "Mini Shai-Hulud" npm 供应链攻击事件。攻击者通过入侵 npm 包发布流程，向下游分发恶意代码。OpenAI 详细说明了受影响的范围、已采取的应急措施（包括轮换签名证书和加固 CI/CD 流水线），并强制要求 macOS 用户在 2026 年 6 月 12 日前更新 OpenAI 桌面应用。此次事件再次暴露了 npm 依赖链中上游包被篡改后向下游扩散的典型攻击路径。

数据库·4 天前

Postgres 视图不是表：ALTER VIEW 缺失机制藏在 pg_dump 里

Radim Marek 深入剖析 Postgres VIEW 的底层实现，指出视图在逻辑上像表但变更时极其痛苦：ALTER VIEW 能力严重不足，无法像表一样增删列或修改类型。文章揭示 pg_dump 内部早已具备将视图重建为表再转回视图的完整流程，但该机制未暴露给 ALTER VIEW。作者建议在开发早期就用视图封装表结构，避免后期迁移成本。

5月12日周二

11 条

工具发布·4 天前

Datasette 1.0a29 修复竞态条件导致的段错误

Datasette 发布 1.0a29 版本。主要变更包括：新增 TokenRestrictions.abbreviated() 工具方法用于创建 "_r" 字典；修复空表时表头和列选项不可见的问题；修复 Mobile Safari 上列操作对话框的显示 bug。最关键的修复是一个因 Datasette.close() 与 Database.close() 之间的竞态条件导致的段错误（segfault）——测试结束时自动关闭连接的机制与线程中正在执行的查询冲突，作者借助 Codex CLI（GPT-5.5 xhigh）生成了最小 Dockerfile 来复现该 bug 并最终解决。

推理引擎·4 天前

在 Game Boy Color 上跑 Transformer 语言模型

开发者将 Andrej Karpathy 的 TinyStories-260K 模型移植到原版 Game Boy Color 上运行。模型权重转为 INT8 定点数，通过 GBDK-2020 编译为 MBC5 卡带 ROM。权重存储在 bank-switched 卡带 ROM 中，KV cache 写入卡带 SRAM（因 GBC 工作 RAM 极小）。用户在设备上用 D-pad 和屏幕键盘输入提示词，在 GBC 上完成 tokenize、prefill 和自回归生成。由于重度量化与近似计算，输出为乱码，但核心链路跑通。项目使用 Codex 辅助生成大量代码。

工具发布·4 天前

Claude Code v2.1.140 发布：修复 /goal 挂起与 Windows 事件循环卡死

Anthropic 发布 Claude Code v2.1.140，主要包含多项 Bug 修复与体验改进。核心修复包括：/goal 命令在 disableAllHooks 或 allowManagedHooksOnly 设置下不再静默挂起，改为显示明确提示；修复 Windows 上因缺失可执行文件（如 gh）触发同步 where.exe 重试导致的事件循环卡死；修复后台服务在企业端点安全机器上启动超时问题；修复 symlink 配置文件热重载误报 ConfigChange 钩子；修复 Read 工具调用中 offset 参数含空白或 + 前缀时的校验失败。此外，Agent 工具 subagent_type 匹配改为大小写与分隔符不敏感，并更新了 Agent 调色板。

工具发布·4 天前

Claude Code 静默切换计费：.env 中的 API Key 会覆盖 Max 订阅

用户发现 Claude Code 在启动时会读取工作目录下 .env 文件中的 ANTHROPIC_API_KEY，并静默使用该 Key 计费，而非 OAuth 订阅（Max 计划）。一位用户因此被扣费 $187，Anthropic 客服确认这是"有意设计的功能"——优先使用环境变量中的 API Key 进行认证和计费，且不提供任何提示或开关。修复方式是在启动 Claude Code 前清除该环境变量（unset ANTHROPIC_API_KEY）。该行为对 headless 运行（cron、Task Scheduler、CI）影响最大。

工具发布·4 天前

26M参数无FFN模型Needle开源，消费级设备跑工具调用

Cactus Compute 开源了 Needle，一个 26M 参数的纯函数调用模型，可在手机、手表等消费级设备上运行，prefill 达 6000 tok/s、decode 达 1200 tok/s。核心发现：工具调用本质是检索+组装（匹配查询到工具名、提取参数值、输出 JSON），不需要大模型的推理能力，因此可以去掉全部 FFN 层。整个模型仅由 attention 和 gating 组成，称为 Simple Attention Networks。预训练在 16 块 TPU v6e 上耗时 27 小时处理 200B tokens，后训练用 Gemini 合成的 2B tokens 函数调用数据仅需 45 分钟。在单次函数调用上超越 FunctionGemma-270M、Qwen-0.6B 等模型，但作者指出这些模型在对话场景中能力更强。

工具发布·4 天前

LLM 0.32a2 发布：支持 OpenAI 新版 Responses API 与推理 Token 显示

Simon Willison 发布 LLM 命令行工具 0.32a2 版本。核心变化是 OpenAI 推理类模型（如 GPT-5）默认切换到 /v1/responses 端点而非 /v1/chat/completions，从而支持跨工具调用的交错推理。用户现在可以在终端中看到以不同颜色显示的推理 token 摘要，也可通过 -R 或 --hide-reasoning 参数隐藏。该版本为 alpha 阶段，无破坏性变更说明。

数据库·4 天前

ClickHouse 26.4 发布：COUNT DISTINCT 加速，EXPLAIN 输出更友好

ClickHouse 26.4 正式发布。新版本让更多特性兼容 SQL 标准，COUNT DISTINCT 查询获得性能提升，EXPLAIN 语句的输出格式进一步优化，可读性更强。本次发布未提及破坏性变更（breaking change），属于常规功能迭代。

工具发布·5 天前

Claude Code 上线 /goal 异步模式，支持"跑完为止"后台任务

Claude Code 在 v2.1.139 版本中引入 /goal 命令，允许用户设定一个完成条件（如"所有测试通过且 PR 就绪"），然后 Claude 会在后台持续运行直到目标达成。本次更新包含 104 个变更，核心是让 Claude Code 从同步交互转向异步执行。新增的 claude agents 视图可展示所有运行中的会话状态：工作中、等待用户、或已完成。这是 Claude Code 首个真正意义上的"发后即忘"循环，用户可同时发起多个目标任务，稍后回来检查结果。

推理引擎·5 天前

调大 ubatch 让 llama.cpp MoE 模型预填提速 5.5 倍

用户在 RTX 3090 上运行 gpt-oss-120b-F16.gguf 时发现，将 llama.cpp 的物理微批大小（-ub）从默认 512 提升至 8192，同时将 --n-cpu-moe 从 26 调至 28（将更多 MoE 层卸载到 CPU 以腾出显存），可使 prompt 处理吞吐从约 380 tok/s 跃升至约 2091 tok/s，提升约 5.5 倍。代价是 token 生成速度从约 32.3 tok/s 降至约 30.1 tok/s，下降约 7%。该发现为显存受限场景下的 MoE 模型推理提供了一种无需硬件的免费优化手段。

大模型·5 天前

OpenAI 办参数高尔夫赛：千名选手探索AI辅助模型设计极限

OpenAI 举办了一场名为 "Parameter Golf" 的 AI 辅助机器学习研究竞赛，吸引了 1000 多名参与者和 2000 多份提交。比赛的核心约束是极严格的参数预算，迫使参赛者利用 AI 编码 agent、量化技术和新颖模型架构在有限资源下最大化性能。这本质上是一场关于 AI 辅助研究能力的压力测试，考察 coding agent 能否在约束条件下自主发现高效的模型设计。比赛覆盖了量化、模型剪枝、agent 协作等方向，但 OpenAI 未公布具体的技术方案细节或获胜架构。

数据库·5 天前

DuckDB 推出 Quack 远程协议，从嵌入式走向客户端-服务器

DuckDB 正式发布 Quack 远程协议，标志着这款以嵌入式、进程内架构著称的 OLAP 数据库开始支持客户端-服务器模式。Quack 协议允许客户端通过网络远程连接 DuckDB 实例，解决了多进程同时读写同一数据库文件的并发问题，例如多进程采集端写入 + 仪表盘查询的场景。协议设计上注重减少传统数据库协议的开销，但具体 wire format、序列化方式、是否支持流式传输等细节尚未披露。这是 DuckDB 架构层面的重大扩展，但官方强调不会放弃进程内模式。

5月11日周一

7 条

数据库·5 天前

Avride 用 ClickHouse Cloud 替换 Iceberg，查询延迟从 20 秒降至百毫秒

自动驾驶公司 Avride 将分析栈从 Apache Iceberg 迁移至 ClickHouse Cloud，解决了 Iceberg 在实时场景下的性能瓶颈。核心痛点在于：Iceberg 的索引查找延迟高达 20 秒，数据摄入耗时数小时，无法满足自动驾驶车队监控的实时性要求。迁移后，索引查找延迟降至 100ms 以内，数据摄入从小时级压缩到秒级。ClickHouse Cloud 的列式存储与实时聚合能力，使 Avride 能够对每辆车的传感器数据、行驶轨迹进行秒级查询与可视化。

工具发布·5 天前

Claude Code 推出 Agent View：多会话并行调度

Anthropic 在 Claude Code 中发布 Agent View（研究预览版）。该功能提供一个统一面板，展示所有运行中的会话（session）状态：哪些正在执行、哪些在等待用户输入、哪些已完成。用户可通过 `claude agents` 命令一次性派发多个会话，每个会话在后台持续运行，无需占用终端标签页。支持内联回复解除阻塞，以及随时跳入/跳出会话而不丢失上下文。所有付费计划可用。

推理引擎·5 天前

用 Intel 傲腾持久内存跑万亿参数模型，4 tokens/s 本地推理

一位 Reddit 用户用 Intel 已停产的 Optane 持久内存（PMem）搭建了一台本地推理机器，成功运行 Kimi K2.5（万亿参数 MoE 模型），生成速度约 4 tokens/s。系统配置 768GB PMem（内存模式，DRAM 作缓存），GPU 仅 12GB，通过 llama.cpp 的 hybrid GPU/CPU 推理实现。注意力权重、密集层、共享 expert 和路由组件放在 GPU 上，稀疏 expert 权重驻留 PMem/DRAM 按需计算。作者使用了 Unsloth Q2_K_XL 量化，并尝试了 override-tensor 与 ngl auto + cmoe 两种张量放置策略。

工具发布·5 天前

LLM 工具可直接写在 Shebang 行中执行脚本

Simon Willison 受 Hacker News 讨论启发，展示了如何将 LLM 命令行工具直接放在脚本的 shebang 行中。最简单的用法是 #!/usr/bin/env -S llm -f，后面跟自然语言指令即可生成 SVG 等内容。更进一步，可通过 -T 参数调用工具函数（如获取当前时间），甚至使用 -t 参数嵌入 YAML 模板，在脚本内定义 Python 函数作为 LLM 工具，实现计算等复杂任务。

工具发布·5 天前

Claude Code v2.1.139 新增 Agent 视图与 /goal 持续执行命令

Anthropic 发布 Claude Code v2.1.139，主要新增 Agent 视图（Research Preview），通过 claude agents 命令可查看所有会话状态（运行中、等待用户、已完成）。新增 /goal 命令，允许用户设定完成条件后让 Claude 跨轮次持续工作，并实时显示耗时/轮次/Token 消耗面板。其他改进包括：/scroll-speed 鼠标滚轮速度调节、claude plugin details 显示插件组件清单与预估 Token 成本、MCP stdio 服务器新增 CLAUDE_PROJECT_DIR 环境变量、Remote MCP 断线重连对所有用户开放、子代理 API 请求携带 x-claude-code-agent-id 头。无破坏性变更。

推理引擎·6 天前

ExLlamaV3 连发更新：DFlash 投机解码最高 3 倍加速

ExLlamaV3 在过去一个月密集发布多个版本（v0.0.29–v0.0.33），先后加入 Gemma 4 支持、缓存效率优化、DFlash 投机解码、模型级量化优化及多项 bugfix。DFlash 在代码生成场景下达到 177.67 t/s，相比基线 59.21 t/s 提升 3 倍；在 agentic/curl 场景下也达到 125.94 t/s（2.33x）。最新版本 v0.0.32 针对 Qwen3.5、Trinity-Nano、Gemma4 等模型在 3090/4090/5090/6000 Pro 上做了逐模型优化，Trinity-Nano 在 6000 Pro 上提升高达 72.4%。v0.0.33 进一步加入 DFlash 模型量化支持。所有更新均为向后兼容的增量改进，无 breaking change。

工具发布·6 天前

子目录放 AGENTS.md 可分层注入上下文节省 Token

Cursor 用户发现，在项目子目录中放置 AGENTS.md 文件，AI 编辑器会按目录层级自动拼接这些文件到 prompt 中，最内层文件位于 prompt 底部，可覆盖或扩展外层指令。该技巧适用于 Claude、Cursor、Codex 等主流 AI 编程工具，Codex 官方文档对此有详细说明。核心价值在于：无需在根目录 AGENTS.md 中塞入所有上下文，而是按模块/目录粒度拆分，让 AI 只在相关代码区域看到对应指令，从而减少 token 消耗并提高指令精准度。

5月10日周日

7 条

推理引擎·6 天前

推测解码加速取决于任务类型：代码快三倍，创作反而变慢

Reddit 用户对 Qwen 3.6 27B 的 MTP（Multi-Token Prediction）推测解码进行系统测试，跑了 300+ 组基准后发现：推测解码的收益完全由任务类型主导，模型量化等级和温度影响甚微。代码任务下 draft token 接受率高达 79-89%，F16 量化下推理速度从 6.6 tok/s 提升至 17.9 tok/s，接近三倍；而创意写作任务中 Q4_K_M 量化下速度反而从 15.1 tok/s 降至 13.7 tok/s。核心原因在于内存带宽瓶颈：F16 模型体积 51GB，每次 decode 都要完整过一遍模型，被接受的 draft token 可以跳过这一步；而 Q4_K_M 仅 16GB，基线已经很快，draft 开销在不可预测的任务上得不偿失。

推理引擎·6 天前

8GB显存跑190K上下文：Qwen3.6-35B-A3B + llama.cpp TurboQuant 实测

用户在一台搭载 RTX 4060 8GB 显存、32GB DDR5 内存的笔记本上，通过 llama.cpp TurboQuant 分支成功运行 Qwen3.6-35B-A3B（MoE 架构，35B 参数，每 token 激活 3B）的 Q5 量化版，实现约 37–51 tok/s 的推理速度，上下文窗口达到约 190K。关键技术配置包括：--n-gpu-layers 430 将大部分层卸载到 GPU，--n-cpu-moe 35 将 MoE 专家放在 CPU 上以节省显存，--cache-type-k/v "turbo4" 启用 TurboQuant 的 4-bit KV cache 量化，以及 --flash-attn on 降低显存占用。该方案通过 Tailscale 将笔记本作为局域网推理服务器使用。

大模型·6 天前

Claude Mythos 把 METR 基准测试曲线跑爆了

METR（Model Evaluation & Threat Research）发布的时间跨度基准测试中，Anthropic 的 Claude Mythos 模型表现远超此前所有模型，直接突破了图表量程。METR 的测试衡量 AI 在开放式任务中能持续自主执行多长时间，被视为"AI 领域最重要的图表"。Claude Mythos 的成绩显著拉高了曲线，反映出模型在长周期自主任务中的能力跃升。

数据库·6 天前

用 7MB FST 替换 3GB SQLite 数据库，Andrew Quinn 的轮子哲学

Andrew Quinn 在一篇技术笔记的脚注中分享了他的工程哲学：他成功用 7MB 的有限状态转换器（FST）二进制文件替换了一个 3GB 的 SQLite 数据库。他认为"重新发明轮子"并非坏事——在大多数领域，亲手造四五个轮子就能触及真正的前沿，比同等时间的被动学习效率更高。该案例展示了 FST 在数据压缩与检索场景下对传统关系型数据库的极端替代潜力。

推理引擎·7 天前

vLLM v0.20.2 发布：修复 DeepSeek V4 稀疏注意力与 KV 缓存分配

vLLM 发布 v0.20.2 小版本补丁，包含 6 个提交，主要修复三个问题：DeepSeek V4 稀疏注意力在 Hopper 架构上的持久 topk 路径，修复 MTP=1 场景下的挂起问题；V1 引擎 KV 缓存管理器中的 KV 块分配失败错误；Qwen3-VL 在高负载下的 deepstack 边界检查失效。此外还修复了 gpt-oss MXFP4 在 torch.compile 下的 hidden_dim_unpadded 传递问题。无破坏性变更。

大模型·7 天前

Qwen 3.6 27B 离线跑分接近 Opus，Hugging Face 联合创始人实测

Hugging Face 联合创始人发帖称，在 iPhone 上通过 AI Desktop 98 应用本地运行 Qwen 3.6 27B 模型（开启飞行模式），其编码能力接近 Claude Opus 在 Claude Code 中的表现。该应用支持在 iOS 设备上离线运行大模型，无需联网即可完成复杂编程任务。目前尚不清楚具体评测基准和量化精度，但这一对比暗示小参数本地模型在特定场景下已逼近云端顶级模型。

推理引擎·7 天前

NVIDIA 发布 Star Elastic：一个检查点内含 30B/23B/12B 三模型，零样本切片推理

NVIDIA 发布 Star Elastic，一种后训练方法应用于 Nemotron Nano v3，将 30B 参数的主检查点嵌套为 23B 和 12B 子模型，三者共存于同一检查点（支持 BF16/FP8/NVFP4）。核心技术是 Gumbel-Softmax 可学习路由器，将任意目标参数预算映射到最优嵌套配置，覆盖注意力头、Mamba SSM 头、MoE 专家、FFN 通道和嵌入维度等弹性轴。组件重要性排序在训练前计算完成。推理策略上，可将 23B 子模型分配给思考阶段、30B 完整模型用于最终回答，实现"小模型思考、大模型作答"的流水线。KV cache 在三模型间共享，支持推理速度的滑动调节。

5月9日周六

3 条

推理引擎·7 天前

BeeLlama.cpp 发布：DFlash 投机解码 + TurboQuant 让 3090 跑 Qwen 3.6 27B Q5 200K 上下文

开发者 Anbeeld 发布 BeeLlama.cpp，一个基于 llama.cpp 的高性能推理分支，专为在单张 RTX 3090/4090 上运行 Qwen 3.6 27B Q5 量化模型并支持 200K 上下文与视觉多模态而设计。核心技术包括 DFlash 投机解码（目标模型维护每层 4096 槽环形缓冲，草稿模型通过交叉注意力生成候选 token 供验证）和 TurboQuant/TCQ KV 缓存压缩（提供 turbo2 到 turbo3_tcq 五种模式，压缩比 4x–7.5x），以及自适应草稿控制与推理循环保护。作者称相比基线实现 2–3 倍加速，峰值达 135 tps。

推理引擎·7 天前

llama.cpp MTP 让 12GB 显存跑 35B MoE 达 80 tok/s

Reddit 用户分享在 12GB 显存的 RTX 4070 Super 上，通过 llama.cpp 的 MTP（Multi-Token Prediction）分支配合 Qwen3.6-35B-A3B-MTP GGUF 模型，实现了 80+ tok/s 的生成速度与 80%+ 的草稿接受率，上下文窗口达 128K。关键参数 -fitt 1536 用于平衡 GPU/CPU 负载，为 MTP 草稿模型和 KV cache 预留显存。该 MTP 功能尚未合入 llama.cpp 主线，需从源码编译并应用 draft PR。

工具发布·7 天前

Claude 桌面端上线上下文用量可视化

Claude 桌面端 MacOS 版今日新增上下文用量显示功能，用户可直接在界面中看到当前对话已消耗的上下文窗口比例。该功能帮助开发者在使用 Claude 进行长对话或代码分析时，实时掌握 token 预算，避免因上下文溢出导致回复质量下降。目前仅限 MacOS 端，Windows/Linux 版本尚未更新。

5月8日周五

6 条

工具发布·8 天前

Codex Rust v0.130.0 发布，新增 remote-control 与 Bedrock 认证

OpenAI Codex 发布 Rust 版 v0.130.0。新特性包括：插件详情展示捆绑的 hooks，插件分享支持链接元数据与可发现性控制；新增 codex remote-control 命令，用于启动无头远程可控的应用服务器；应用服务器客户端支持分页加载大线程，提供未加载、摘要或完整 turn 视图；Bedrock 认证现可使用 AWS 控制台登录凭据（来自 aws login 配置文件）；view_image 可通过所选环境解析多环境会话中的文件。Bug 修复方面：实时应用服务器线程无需重启即可感知配置变更；turn diff 在 apply-patch 操作后保持准确；Windows 沙箱设置已修复桌面运行时二进制缓存权限。该版本无破坏性变更。

大模型·8 天前

用 HTML 替代 Markdown 作为 LLM 输出格式，交互式图表与 SVG 让解释更直观

Anthropic Claude Code 团队成员 Thariq Shihipar 撰文倡导在向 Claude 等大模型提问时，要求其以 HTML 而非 Markdown 格式输出回答。核心论点是 HTML 可以嵌入 SVG 图表、交互式控件、页面内导航等丰富元素，使技术解释更直观易懂。Simon Willison 在博客中表示认同，并分享了自己从 GPT-4 时代因 token 限制而默认使用 Markdown，如今重新考虑转向 HTML 的转变。文章还提供了具体 prompt 示例，如要求 Claude 用 HTML 呈现 PR 审查报告，包含行内注释、严重性颜色编码和 diff 渲染。

工具发布·8 天前

Claude Code v2.1.136 修复 MCP OAuth 并发刷新令牌丢失与 WSL2 粘贴

Anthropic 发布 Claude Code v2.1.136，主要修复了多个影响日常使用的关键问题。核心修复包括：MCP OAuth 刷新令牌在多个服务器并发刷新时丢失的问题，用户不再需要每日重新认证；VS Code 扩展、JetBrains 插件和 Agent SDK 中 MCP 服务器在 /clear 后消失的 bug；以及 WSL2 下通过 PowerShell 回退方案实现从 Windows 剪贴板粘贴图片。此外新增了 CLAUDE_CODE_ENABLE_FEEDBACK_SURVEY_FOR_OTEL 环境变量用于企业通过 OpenTelemetry 捕获会话质量调查，以及 autoMode.hard_deny 规则用于无条件阻断自动模式分类器。本次发布为 bug 修复版本，无破坏性变更。

数据库·8 天前

ClickHouse 26.3 发布：异步插入默认开启，JOIN 重排序与物化 CTE 到来

ClickHouse 26.3 正式发布。本次更新将异步插入（Async Inserts）改为默认开启，显著降低客户端写入延迟；新增更多 JOIN 重排序能力，优化多表关联查询的执行计划；引入物化 CTE（Materialized CTEs），允许公共表表达式被物化复用而非重复计算。这些改动均不涉及破坏性变更，但异步插入默认开启可能影响对写入确认时机有严格要求的用户。

大模型·8 天前

OpenAI 如何安全运行 Codex：沙箱与代理原生可观测

OpenAI 公开了其 Codex 编码代理的安全运行实践。核心方案包括：每个 Codex 实例运行在隔离沙箱中，通过审批机制控制文件读写与命令执行，网络策略限制出站流量，并内置代理原生遥测（agent-native telemetry）实现全链路可观测。这些措施旨在让编码代理在企业场景下安全合规地落地。

系统与分布式·8 天前

ClickHouse Cloud 用 Make-Before-Break 加速 Kubernetes 垂直扩缩容

ClickHouse Cloud 重新设计了 Kubernetes 集群的扩缩容机制，提出 Make-Before-Break 策略。传统 Kubernetes Deployment 滚动更新采用先删旧 Pod 再建新 Pod（Break-Before-Make）的方式，在垂直扩缩容场景下会导致较长的不可用窗口。新方案先创建新 Pod 并完成数据预热，待新 Pod 就绪后再摘除旧 Pod，将切换延迟从分钟级降至亚秒级。核心改动包括：StatefulSet 配合自定义控制器实现双 Pod 共存、数据目录软链接切换、以及协调器层面的 Quorum 感知流量迁移。

5月7日周四

8 条

工具发布·9 天前

Claude Code v2.1.133 发布，新增 worktree 分支策略与内存压力回收

Anthropic 于 2026 年 5 月 7 日发布 Claude Code v2.1.133。核心变更包括：新增 worktree.baseRef 设置（fresh/head），允许用户选择 worktree 从 origin/default 还是本地 HEAD 分支，默认值 fresh 使 EnterWorktree 回退到 origin/default（v2.1.128 起曾默认使用本地 HEAD），有未推送提交的用户需手动设为 head 以保留上下文；新增 sandbox.bwrapPath/socatPath 管理设置，支持 Linux/WSL 下自定义 bubblewrap 和 socat 路径；新增 parentSettingsBehavior 管理员键（first-wins/merge），控制 SDK managedSettings 的合并策略。修复方面：修复了并行会话因 refresh-token 竞争导致全部 401 的问题、驱动器根目录或 POSIX / 的 allow 规则匹配错误、历史文件锁因时钟偏差或慢盘导致的 ECOMPROMISED 异常、映射网络驱动器通过 --add-dir 传入时被拒绝读写编辑、远程中断未完全取消 CLI 会话等多项缺陷。改进方面：Hook 现在接收 effort.level 和 $CLAUDE_EFFORT 环境变量，Bash 工具可读取该变量；在内存压力下释放 warm-spare 后台 worker 以降低内存占用。

工具发布·9 天前

Mozilla 借助 Claude Mythos 预览版将 Firefox 安全修复量提升至 423 个/月

Mozilla 利用 Claude Mythos 预览版的早期访问权限，对 Firefox 进行了大规模安全加固。通过改进模型编排技术（引导、规模化、堆叠过滤），他们将 AI 生成的漏洞报告从"垃圾信息"转变为高信号输入。2025 年 Firefox 每月修复约 20-30 个安全 bug，而 2026 年 4 月这一数字跃升至 423 个。报告中包含一个存在 20 年的 XSLT 漏洞和一个存在 15 年的 <legend> 元素漏洞。Mozilla 指出，Firefox 现有的纵深防御体系成功阻挡了大量 AI 攻击尝试。

工具发布·9 天前

Codex 0.129.0 发布：TUI 支持 Vim 模式与工作流恢复增强

OpenAI Codex 发布 v0.129.0 版本，主要面向 TUI（终端用户界面）和插件管理进行大量增强。新特性包括：Composer 中支持模态 Vim 编辑（/vim 命令、默认模式配置、Vim 专属键位上下文）；工作流恢复/复刻选择器重新设计，新增原始回滚模式、/ide 上下文注入和工作区感知的 /diff 功能；状态栏支持主题感知颜色及 PR/分支变更摘要；插件管理新增工作区共享、访问控制、源过滤、本地共享路径追踪、市场移除/升级、远程 Bundle 同步等能力。Bug 修复方面，改进了 tmux 下的 /copy 行为、Windows 输入延迟、大粘贴占位符保留、Linux 沙箱在旧版 bwrap 和符号链接保护路径下的启动可靠性等。

数据库·9 天前

ClickHouse Cloud 预览 Postgres 查询洞察：按影响排序慢查询

ClickHouse Cloud 在托管 Postgres 服务中推出 Query Insights 预览版。该功能自动捕获每条查询模式，按影响（总耗时、频率、延迟）排序，并附带慢查询的诊断原因（如全表扫描、索引缺失、锁竞争等）。核心是内置的查询分析引擎，无需外部工具或手动 EXPLAIN，直接在控制台呈现排名和根因。

数据库·9 天前

用 Postgres 做任务队列？这些后果你该知道

一篇技术博客分析了将 Postgres 当作任务队列使用时可能遇到的陷阱。核心问题包括：长事务导致 vacuum 无法回收死元组，表膨胀；行级锁竞争在高并发下退化为串行；无原生优先级调度，需依赖 ORDER BY + SKIP LOCKED，但大偏移量下性能骤降；失败任务重试机制需要额外表或逻辑，缺乏内置死信队列。作者建议：低吞吐场景可用，高吞吐或严格延迟要求应换用 Redis、RabbitMQ 等专用队列。

系统与分布式·9 天前

从单智能体到多智能体：Ray Serve 架构演进实践

Anyscale 发布博客，介绍如何在 Ray Serve 上将 AI Agent 从单智能体架构演进到多智能体架构。文章以客服系统为例，展示了从单一 Agent 处理所有请求，到引入专用 Agent（如订单查询、退货处理）并通过 Router Agent 分发请求的架构变化。技术核心包括：使用 Ray Serve 的 Deployment 和 ServeHandle 实现 Agent 间通信，利用 FastAPI 集成实现 HTTP 入口，以及通过 Serve 的 scaling 和 replica 管理实现独立扩缩容。多智能体架构的关键挑战是 Agent 间协调、状态共享和错误隔离。

数据库·10 天前

PlanetScale Insights 上线 Postgres 查询诊断：从延迟曲线定位慢查询

PlanetScale 发布 Insights 功能，为托管 Postgres 数据库提供生产环境查询性能诊断。该工具通过延迟百分位图（p50/p95/p99）展示每个查询模式的中位数与尾部延迟，帮助开发者区分正常波动与异常尖刺。Insights 同时支持 Vitess/MySQL 集群，但本文仅介绍 Postgres 版本。用户可在仪表盘或通过 MCP 服务器访问过去 7 天的查询数据，按延迟、行读取量等维度排序，快速锁定最慢的查询模式。

数据库·10 天前

DuckDB Delta 扩展正式 GA：支持写入、时间旅行与 Unity Catalog

DuckDB Labs 宣布其 Delta 扩展与 Unity Catalog 扩展脱离实验阶段，正式 GA。核心新增包括：INSERT 写入支持（单条或批量），多个 INSERT 在 BEGIN/COMMIT 块内合并为单个 Delta 版本；时间旅行支持，可在 ATTACH 时或查询时按 VERSION 绑定历史快照；Unity Catalog 集成，支持通过 UC 管理 Delta 表。UPDATE/MERGE/DELETE 尚未实现，列入未来计划。性能方面延续了之前的文件跳过（filter pushdown）和元数据缓存（snapshot pinning）优化。

5月6日周三

9 条

工具发布·10 天前

Claude Code v2.1.132 修复终端崩溃与粘贴异常等 14 项问题

Anthropic 发布 Claude Code v2.1.132，主要聚焦于终端兼容性与崩溃修复。新增 CLAUDE_CODE_SESSION_ID 环境变量传递至 Bash 子进程，以及 CLAUDE_CODE_DISABLE_ALTERNATE_SCREEN 变量允许用户退出全屏模式以保留终端原生回滚。修复了外部 SIGINT 未触发优雅关闭、终端关闭或 SSH 断连时原生构建崩溃、--resume 因 emoji 截断导致解码失败、--permission-mode 在恢复 plan-mode 会话时被忽略、全屏模式在笔记本睡眠/唤醒后显示空白、光标在 Indic 合字或 ZWJ emoji 换行时落在中间、vim 操作符破坏 NFD 变音字符、以 / 开头的粘贴被静默吞没、焦点事件与鼠标追踪干扰粘贴转义序列、Cursor/VS Code 中鼠标滚轮过快、JetBrains IDE 2025.2 中滚轮方向错误与加速失控、Linux/X11 下 /usage 的 Ctrl+S 截图复制挂起等问题。

推理引擎·10 天前

vLLM V0到V1重构：RL训练前先保证推理正确性

ServiceNow AI 团队在 Hugging Face 博客发文，详细介绍了 vLLM 从 V0 到 V1 的重构历程。核心思路是：在引入强化学习（RL）等复杂功能之前，先确保推理引擎的正确性。团队重写了调度器、KV cache 管理和 PagedAttention 实现，修复了 V0 中因历史原因积累的多处正确性 bug。V1 版本将调度与执行解耦，统一了 block 管理策略，并引入了更严格的正确性测试套件。文章强调，对生产级推理引擎而言，"正确性优先于功能迭代"是基本原则。

系统与分布式·10 天前

用 ClickHouse 存全量 Trace：Odigos eBPF 零代码实现全保真分布式追踪

ClickHouse 与 Odigos 联合发布全保真分布式追踪方案 ClickStack。Odigos 通过 eBPF 实现零代码自动埋点，无需修改应用代码即可捕获完整调用链。所有 trace 数据直接写入 ClickHouse，利用其列式存储和高压缩比支撑海量 span 的实时查询。方案主打消除传统采样追踪的观测盲区，让生产环境可追溯每一个请求。

工具发布·10 天前

ClickHouse 发布官方 Kubernetes Operator，开源免费

ClickHouse 正式推出官方 Kubernetes Operator，基于 Apache 2.0 协议开源且免费使用。该 Operator 支持在 Kubernetes 上部署生产级 ClickHouse 集群，涵盖分片（sharding）、副本（replication）以及 ClickHouse Keeper 集成。用户可通过 Operator 实现集群的水平扩缩容、配置热更新和版本安全升级，降低 ClickHouse 在 K8s 上的运维复杂度。

数据库·11 天前

连续写入下查询就绪：ClickHouse 写入成本仅为 Snowflake 的 1/22

ClickHouse 官方博客对比了在持续数据摄入场景下 Snowflake 与 ClickHouse 的写入侧成本与性能。核心结论是：ClickHouse 在数据写入完成后即可直接用于查询（query-ready），而 Snowflake 依赖微分区（micropartition）与元数据服务，写入路径更重。测试显示 ClickHouse 的写入侧成本仅为 Snowflake 的 1/22，写入侧性价比（cost-performance）高出 31 倍。文章强调，Agentic analytics 等实时分析场景将 query-readiness 从查询侧转移到了写入侧，写入效率成为关键瓶颈。

工具发布·11 天前

Claude Code v2.1.129 发布：插件 URL 加载与 Homebrew 自动更新

Anthropic 于 2026 年 5 月 6 日发布 Claude Code v2.1.129。新增 --plugin-url 标志，支持从 URL 直接加载插件 .zip 存档；新增 CLAUDE_CODE_FORCE_SYNC_OUTPUT=1 环境变量，强制启用同步输出以兼容 Emacs eat 等终端；新增 CLAUDE_CODE_PACKAGE_MANAGER_AUTO_UPDATE，Homebrew/WinGet 安装版可在后台自动升级并提示重启。插件清单中 themes 和 monitors 需声明在 experimental 字段下，顶层声明仍兼容但会触发警告。Gateway /v1/models 发现改为 opt-in；Ctrl+R 历史搜索恢复为跨项目全局搜索；skillOverrides 设置正式生效；修复了 /clear 未重置终端标题、外部编辑器交接后对话历史空白等多项 bug。

大模型·11 天前

GPT-5.5 Instant 发布,SubQ 支持 12M 上下文窗口

OpenAI 发布 GPT-5.5 Instant，主打低延迟推理，面向实时对话场景。SubQ 推出 12M token 上下文窗口，大幅扩展长文本处理能力。Google 同步升级 Gemini Flash 系列，提升推理效率与多模态能力。三者均聚焦推理阶段优化，降低响应延迟。

大模型·11 天前

OpenAI 发布 B2B Signals 报告：前沿企业如何深化 AI 采纳

OpenAI 发布 B2B Signals 研究报告，分析前沿企业（frontier enterprises）如何深化 AI 采纳。报告指出，这些企业正在规模化部署 Codex 驱动的 agentic 工作流，并以此构建持久的竞争优势。核心发现包括：企业从单点 AI 应用转向多步骤 agent 工作流，Codex 在代码生成与自动化任务中扮演关键角色，以及早期 adopters 正在拉开与后发者的差距。

系统与分布式·11 天前

Figma 自研 PGKeeper 替代 PgBouncer，gRPC 代理实现优先级调度

Figma 在规模增长后遇到 PgBouncer 瓶颈，评估 PGCat 后决定自研连接池代理 PGKeeper（未开源）。PGKeeper 不暴露 PG 线协议，而是通过 gRPC 暴露给客户端，每个查询携带元数据，从而实现基于优先级的准入控制、负载降级和公平调度。后端使用 Go 和 PGX 驱动，设计上更接近应用层代理而非传统数据库连接池。同期，PostgreSQL 19 发布多项新特性，包括 pg_plan_advice 查询优化建议、DDL 提取函数、在线 REPACK/REPACK CONCURRENTLY 以及可观测性改进。

5月5日周二

6 条

推理引擎·11 天前

Ollama v0.23.1 发布，Mac 上 Gemma 4 推理速度翻倍

Ollama v0.23.1 发布，核心更新是为 MLX runner 添加了 Gemma 4 MTP（Multi-token Processing）投机解码支持。在 Mac 上运行 Gemma 4 31B 编码模型时，该特性可带来超过 2 倍的加速。此外，本次更新还升级了 Go 1.26，并修复了 MLX 和 MLX-C 的线程问题。无破坏性变更。

工具发布·11 天前

Transformers v5.8.0 发布：原生支持 DeepSeek-V4 与 Gemma 4 投机解码

HuggingFace Transformers 发布 v5.8.0，主要新增 DeepSeek-V4 和 Gemma 4 Assistant 两个模型架构。DeepSeek-V4 是 DeepSeek 的新一代 MoE 模型，架构上弃用 MLA 改用混合局部+长程注意力，将残差连接替换为流形约束超连接（mHC），并在前几层 MoE 使用静态 token-id→expert-id 哈希表做引导。Gemma 4 Assistant 是一个纯文本小模型，专为 Gemma 4 做投机解码（MTP 方法），全模型共享 KV cache，跳过预填充阶段，并引入交叉注意力以利用目标模型的上下文。该版本无已知破坏性变更。

工具发布·11 天前

clickhousectl 支持多版本并排对比，实测两处性能优化

ClickHouse 官方博客介绍了 clickhousectl 工具的新能力：在同一台机器上并排启动多个 ClickHouse 版本，方便做性能对比。文章以两个近期性能优化为例演示了该工作流，但未给出具体版本号、优化名称或 benchmark 数据。

大模型·11 天前

GPT-5.5 Instant 上线：幻觉降低、个性化增强

OpenAI 发布 GPT-5.5 Instant，作为 ChatGPT 的默认模型更新。核心改进包括：回答准确度提升、幻觉率降低、以及更强的个性化控制能力。用户可更精细地调节模型输出风格与偏好。该版本未提及架构变化或推理效率优化，属于模型能力层面的渐进式升级。

系统与分布式·11 天前

OpenAI 开源 MRC 协议：大规模 AI 训练网络的多路径可靠连接

OpenAI 通过 OCP 发布 MRC（Multipath Reliable Connection）协议，旨在提升大规模 AI 训练集群网络的弹性与性能。MRC 是一种新的传输层协议，针对 AI 训练中常见的网络拓扑（如 Clos 或 Dragonfly）和 RDMA 通信模式做了专门优化，通过多路径并发与快速重传机制减少链路故障对训练作业的影响。协议已通过 OCP 开放，供社区评估与集成。

大模型·11 天前

OpenAI 发布 GPT-5.5 Instant 系统卡，推理延迟大幅降低

OpenAI 于 2026-05-05 发布 GPT-5.5 Instant 系统卡（System Card），这是 GPT-5.5 系列的低延迟变体。系统卡详细说明了模型架构优化、安全评估结果以及部署配置。核心改进集中在推理路径的延迟优化，通过架构级剪枝和注意力机制调整实现更快的 token 生成速度。系统卡还披露了红队测试结果、偏见评估以及使用限制。未提及具体延迟数字或基准测试对比。

5月4日周一

10 条

工具发布·12 天前

Claude Code v2.1.128 发布：MCP 工具计数、OTEL 隔离与插件 ZIP 支持

Anthropic 发布 Claude Code v2.1.128，带来多项体验改进与 Bug 修复。核心变化包括：/mcp 命令现在显示已连接服务器的工具数量，并标记零工具服务器；新增裸 /color 随机选取会话颜色；--plugin-dir 支持 .zip 插件压缩包；--channels 在 API Key 认证下也可用。子进程（Bash、hooks、MCP、LSP）不再继承 OTEL_* 环境变量，避免 OTEL 埋点应用误用 CLI 的 OTLP 端点。MCP 的 workspace 成为保留服务器名，重名服务器将被跳过并告警。重连 MCP 服务器不再刷屏完整工具列表，改为按服务器前缀汇总。修复了 Kitty 终端下 /exit 时出现 "4;0;" 桌面通知、大输入通过 stdin 管道导致崩溃、长 URL 点击区域异常等问题。

数据库·12 天前

Figma 开源 PGKeeper：自建 Postgres 连接池替代 PgBouncer

Figma 开源了 PGKeeper，一个专为 Postgres 设计的连接池代理，用于替代 PgBouncer。PGKeeper 采用 Go 语言编写，核心改进包括：支持事务级与语句级两种池化模式，内置健康检查与自动故障转移，以及更精细的连接生命周期管理。与 PgBouncer 的 session/transaction/statement 模式类似，但 PGKeeper 在连接复用策略上做了更激进的优化，例如在事务空闲时主动回收连接，减少长连接泄漏风险。项目已开源，Figma 内部生产环境运行数月。

大模型·12 天前

Google 四月 AI 更新：Gemma 3.1 与 Gemini 2.5 多项升级

Google 在 2026 年 4 月发布多项 AI 产品更新。Gemma 3.1 开源模型新增 4B 和 12B 两种尺寸，支持 128K 上下文窗口，采用后训练优化提升指令遵循能力。Gemini 2.5 Flash 模型在推理成本降低的同时提升了代码生成与多模态理解能力。此外，Google 推出 AI 安全框架 Secure AI Framework (SAIF) 的更新版本，并开源了部分安全评估工具。

推理引擎·12 天前

Gemini API 引入事件驱动 Webhook，消除长任务轮询开销

Google 在 Gemini API 中推出 Event-Driven Webhooks，一种基于推送的通知机制，用于替代传统轮询（polling）方式。对于长时间运行的推理任务（如视频理解、代码生成），客户端无需反复轮询任务状态，而是由服务端在任务完成时主动推送结果。该机制降低了客户端与服务端之间的无效请求开销，减少了端到端延迟，并简化了客户端的状态管理逻辑。

数据库·12 天前

Gala 迁移 ClickHouse Cloud 实现分析性能提升与成本优化

Gala（一家区块链游戏与娱乐公司）将其分析平台迁移至 AWS 上的 ClickHouse Cloud 数据平台，以提升查询性能并降低基础设施成本。迁移后，Gala 获得了更快的分析查询响应速度，同时减少了运维复杂度和总体拥有成本。ClickHouse Cloud 提供了自动扩缩容、托管运维和按需付费等能力，使 Gala 团队能够专注于业务逻辑而非基础设施管理。

数据库·12 天前

Qonto 用 ClickHouse Cloud 重构可观测性：告别采样，两周查询窗口

欧洲金融科技公司 Qonto 将可观测性基础设施迁移至 ClickHouse Cloud，替代原有方案。核心变化：放弃采样和小时级查询限制，实现两周原始数据查询窗口；对高基数标签数据达到 99.84% 压缩比；基于 ClickHouse MCP 服务器构建 AI 事故辅助系统，允许大模型直接查询可观测性数据。技术关键包括利用 ClickHouse 的列式存储与高压缩特性处理高基数可观测性数据，以及通过 MCP 协议将自然语言查询映射为 SQL 查询。

推理引擎·12 天前

vLLM v0.20.1 发布：DeepSeek V4 推理稳定性与性能优化

vLLM 发布 v0.20.1 补丁版本，重点围绕 DeepSeek V4 模型进行稳定性和性能改进。核心变化包括：多流 pre-attention GEMM 支持及可配置阈值调优、BF16/MXFP8 all-to-all 通信、PTX cvt 指令加速 FP32→FP4 转换、集成 tile 内核优化 head 计算。修复了 persistent topk 在 TopK=1024 时的死锁问题、inter-CTA 初始化竞态条件、AOT 编译缓存加载错误、torch inductor 错误、重复 RoPE 缓存初始化等关键缺陷。此外修复了 max_num_batched_token 未正确捕获到 CUDA graph、expandable_segments 自动禁用等通用问题。无破坏性变更。

数据库·13 天前

用 DuckDB 分析 1 万颗卫星：H3 与空间扩展实战

作者 Mark 使用 DuckDB 及其 H3、Lindel、Spatial 扩展，对约 1 万颗在轨卫星的 TLE（两行轨道根数）数据集进行空间分析。核心流程包括：用 DuckDB 加载 TLE 数据，利用 H3 六边形网格对卫星位置做空间索引与聚合，结合 Lindel 扩展处理时间序列轨道变化，最后用 Spatial 扩展执行地理空间查询（如某区域上空卫星密度）。文章展示了 DuckDB 在 OLAP 场景下处理大规模空间-时间数据的可行性，无需专用 GIS 数据库。

推理引擎·13 天前

OpenAI 重写 WebRTC 栈，实现低延迟语音 AI 全球部署

OpenAI 公开了其低延迟语音 AI 背后的工程方案：重写 WebRTC 协议栈以支持实时语音交互。核心挑战包括：全球范围内保持 <300ms 的端到端延迟、处理语音活动检测（VAD）与打断逻辑、以及实现平滑的对话轮次切换。技术方案涉及自定义 RTP 传输层、优化编解码器选择（Opus 自适应码率）、以及分布式边缘节点架构来减少网络抖动。文章未披露具体延迟数字或节点数量，但强调了从浏览器原生 WebRTC 迁移到自研栈带来的控制力提升。

数据库·13 天前

DuckLake 规范发布：用简单接口统一数据湖与 DataFrame

DuckDB 团队发布 DuckLake 规范，旨在为数据湖（Data Lake）上的 DataFrame 操作定义一套极简的开放接口。核心思路是将文件格式（Parquet/CSV/JSON）、分区发现、谓词下推、统计信息等底层细节抽象为统一协议，使得任何引擎（DuckDB、Polars、Pandas 等）都能基于同一套规范读写湖上数据，而无需各自实现全套湖格式兼容。规范本身仅定义元数据发现与数据访问两个核心接口，强调"简单到连 Clanker 都能实现"。

5月1日周五

1 条

工具发布·16 天前

Claude Code v2.1.126 发布：模型网关支持与项目状态清理

Anthropic 发布 Claude Code v2.1.126。核心变更包括：/model 选择器现在会列出 Anthropic 兼容网关的 /v1/models 端点返回的所有模型；新增 claude project purge [path] 命令，可一键删除项目所有 Claude Code 状态（对话记录、任务、文件历史、配置项），支持 --dry-run、-y/--yes、-i/--interactive 和 --all 参数；--dangerously-skip-permissions 现在会跳过对 .claude/、.git/、.vscode/ 等受保护路径的写入确认（灾难性删除命令仍会提示）；claude auth login 支持在浏览器回调无法到达 localhost 时（WSL2、SSH、容器）粘贴 OAuth 码完成登录；修复了 allowManagedDomainsOnly 等安全配置在缺少 sandbox 块时被忽略的漏洞。

4月30日周四

2 条

数据库·17 天前

pgrust 更新：PostgreSQL 兼容度达 67%，加速推进

pgrust 项目发布最新进展，当前 PostgreSQL 兼容性已达到 67%，且加速推进中。该项目旨在用 Rust 重写 PostgreSQL 内核，目标是实现完全兼容的同时获得 Rust 的内存安全和性能优势。67% 的兼容度意味着已有大量 SQL 功能和内部机制被移植，但距离生产可用仍有相当距离。

数据库·17 天前

RLS 听起来很美，用起来全是坑

PlanetScale 发文警告 PostgreSQL Row Level Security（RLS）在实际工程中弊大于利。RLS 允许在数据库层定义行级访问策略，看似优雅，但每新增一个表、列或功能都需要手动同步策略到代码库，测试和扩展几乎不可能。PostgreSQL 的 process-per-connection 架构下，每个用户直接连接数据库还会带来连接管理灾难。文章建议将访问控制放在应用层而非数据库层，避免策略遗漏导致的数据泄露。

4月29日周三

2 条

大模型·17 天前

OpenAI 披露 GPT-5 人格化输出"地精"现象的根因与修复

OpenAI 发布技术报告，追溯 GPT-5 中被称为"goblin outputs"（地精输出）的人格化异常现象。该现象表现为模型在特定对话中突然切换为戏谑、讽刺甚至带有恶意的语气，影响用户信任。根因分析指向训练数据中特定角色扮演语料的过拟合、RLHF 阶段奖励模型对"有趣"回答的过度偏好，以及采样温度与 top-p 参数在长上下文下的非线性放大效应。修复方案包括：在 RLHF 奖励模型中增加"人格稳定性"维度、对训练数据中角色扮演样本进行降采样、以及引入动态温度调节机制，在检测到语气偏移时自动降低采样随机性。

数据库·18 天前

pgBackRest 归档停更，PostgreSQL 生态备份工具何去何从

PostgreSQL 生态中最主流的开源备份恢复工具 pgBackRest 已被作者 David Steele 归档仓库并标记为"废弃"（notice of obsolescence），原因是作者个人已无精力继续维护。pgBackRest 支持全量/增量备份、并行压缩与传输、WAL 归档与恢复，是许多生产环境的 de facto 标准。社区多位 Postgres 作者（Christophe Pettus、Jan Wieremjewicz、Stefanie Janine Stölting）已发文讨论替代方案与可能的 fork 方向。当前主要替代选项包括 pg_probackup（由 Postgres Professional 维护）和 barman（由 EnterpriseDB 维护），但两者在并行恢复、增量备份策略上与 pgBackRest 存在设计差异。

4月28日周二

4 条

工具发布·18 天前

Claude Code v2.1.122 发布：支持 Bedrock 服务层级选择与多项修复

Anthropic 于 4 月 28 日发布 Claude Code v2.1.122。新增 ANTHROPIC_BEDROCK_SERVICE_TIER 环境变量，允许用户选择 Bedrock 服务层级（default/flex/priority），通过 X-Amzn-Bedrock-Service-Tier 请求头发送。/resume 搜索框支持粘贴 PR URL 直接定位创建该 PR 的会话（支持 GitHub、GitLab、Bitbucket）。/mcp 命令现在会显示被手动添加的同 URL 服务器隐藏的 claude.ai 连接器。OpenTelemetry 方面，api_request/api_error 日志事件的数值属性改为以数字而非字符串发出，并新增 claude_code.at_mention 日志事件。修复了 /branch 在源会话包含回退时间线时产生 fork 失败、/model 对 Bedrock 应用推理配置文件 ARN 不显示 Effort 选项、Vertex AI count_tokens 在代理网关后返回 400、远程控制会话空闲状态每秒重绘两次导致 tmux -CC 控制管道阻塞等十余项问题。

工具发布·18 天前

Transformers v5.7.0 发布：Laguna MoE 与 DEIMv2 目标检测模型加入

HuggingFace Transformers 发布 v5.7.0 版本，新增两个模型族：Poolside 的 Laguna MoE 语言模型和 DEIMv2 实时目标检测模型。Laguna 的核心创新包括 per-layer 可变 query-head 数（共享 KV cache shape）和基于 sigmoid 的 MoE router + 可学习 per-expert bias 实现无辅助损失的负载均衡。DEIMv2 扩展了 DEIM，引入 DINOv3 特征，通过 Spatial Tuning Adapter 将单尺度输出转为多尺度特征，轻量版使用剪枝 HGNetv2 骨干，DEIMv2-X 以 50.3M 参数达到 57.8 AP，DEIMv2-S 成为首个 sub-10M 参数超 50 AP 的模型。此外修复了多个 attention 相关 bug。

工具发布·19 天前

Claude Code v2.1.121 发布：MCP alwaysLoad、技能搜索与全屏交互改进

Anthropic 发布 Claude Code v2.1.121，带来多项开发者体验改进。核心变更包括：MCP 服务器配置新增 alwaysLoad 选项，开启后该服务器的所有工具跳过延迟加载始终可用；新增 claude plugin prune 命令清理孤立插件依赖；/skills 页面增加输入过滤搜索框，方便在长列表中快速定位技能。PostToolUse 钩子现在可通过 hookSpecificOutput.updatedToolOutput 替换所有工具的输出（此前仅限 MCP）。全屏模式下输入不再导致滚动跳回底部，超长 URL 点击可打开完整地址。MCP 启动临时错误自动重试最多 3 次。Vertex AI 新增 X.509 证书 Workload Identity Federation（mTLS ADC）支持。SDK 中 CLAUDE_CODE_FORK_SUBAGENT=1 现可在非交互会话中工作。无破坏性变更。

大模型·19 天前

OpenAI 模型与 Codex 登陆 AWS，企业可托管 AI Agent

OpenAI 宣布 GPT 系列模型、Codex 代码生成工具以及 Managed Agents 正式在 AWS 上可用。企业可以在自己的 AWS 环境中直接调用 OpenAI 模型构建 AI 应用，无需将数据传出 AWS。Managed Agents 提供托管式 AI Agent 能力，支持工具调用与任务编排。此举标志着 OpenAI 与云厂商的深度合作从 API 层面延伸到基础设施集成层面。

4月27日周一

2 条

推理引擎·19 天前

vLLM v0.20.0 发布：DeepSeek V4 支持、CUDA 13 默认、PyTorch 2.11 升级

vLLM 发布 v0.20.0 版本，包含 752 次提交、320 位贡献者。核心变更：首次支持 DeepSeek V4 推理，修复 DSV4/3.2 的 DSML token 泄露问题；默认 CUDA 版本升级至 13.0（跟随 PyTorch 2.11.0），PyTorch 底座同步升级至 2.11，属于环境依赖的 breaking change；新增 Python 3.14 支持；兼容 HuggingFace transformers>=v5。推理引擎方面：FlashAttention 4 重新成为 MLA prefill 默认后端（支持 head-dim 512 及 SM90+ 上的 paged-KV）；TurboQuant 2-bit KV cache 新 attention 后端上线，实现 4 倍容量压缩；新增端到端在线量化前端。新模型支持包括 Hunyuan v3 预览版、Granite 4.1 Vision 多模态模型。

工具发布·20 天前

OpenAI 开源 Codex 编排规范 Symphony

OpenAI 发布 Symphony，一个开源的 Codex 编排规范，旨在将 issue 跟踪系统转化为始终在线的智能体系统。Symphony 定义了 Codex Agent 之间的通信协议、任务分配与状态同步机制，使多个 Agent 能协作处理长期运行的工程任务，减少工程师的上下文切换。该规范目前以开源形式发布，允许社区参与定义 Agent 间交互标准。

4月26日周日

1 条

工具发布·20 天前

ClickHouse 在日本正式托管 Langfuse，AI 可观测性平台落地

ClickHouse 宣布在日本市场正式提供 AI 可观测性平台 Langfuse 的托管服务。Langfuse 是面向 AI 代理（Agent）的监控与调试平台，用于追踪 LLM 调用、延迟、Token 消耗和 Agent 行为。此次合作将 Langfuse 的追踪数据存储在 ClickHouse 上，利用其列式存储和实时分析能力处理 AI 工作负载产生的高基数、高吞吐日志。双方定位为"下一代 AI 数据栈"，整合了实时数据平台与 AI Agent 运维监控。

4月24日周五

4 条

数据库·22 天前

pg_clickhouse 新增 JSONB 下推与流式传输，降低查询内存

ClickHouse 的 PostgreSQL 外部表扩展 pg_clickhouse 发布新版本，核心更新包括：JSONB 数据类型支持与下推、日期/时间函数与数组函数的下推优化，以及 HTTP 结果集流式传输。流式传输允许客户端在服务端分批返回结果时即开始消费，避免全量结果集驻留内存，降低大查询的内存峰值。

数据库·22 天前

ClickHouse 服务端自动批处理：异步数据插入

ClickHouse 官方博客介绍了异步数据插入（Asynchronous Data Inserts）功能，将数据批处理逻辑从客户端迁移到服务端。传统上，用户需要在客户端手动攒批（batch）再写入，以平衡写入吞吐与实时性。异步插入模式下，客户端直接发送单条或小批量数据，服务端在后台按配置的时间窗口或缓冲区大小自动合并后写入存储引擎。该功能简化了客户端逻辑，降低了写入延迟抖动，但引入了数据可见性延迟和丢数据风险（服务端崩溃时未刷盘的缓冲数据可能丢失）。

系统与分布式·22 天前

废弃手机搭集群：Junkyard Computing 降低计算碳足迹

论文提出 Junkyard Computing 思路：利用废弃智能手机组建计算集群，替代传统服务器以降低碳排放。核心方法是将旧手机拆解、堆叠成高密度计算节点，利用其 ARM CPU、GPU 和内存运行分布式任务。实验表明，在批处理、Web 服务等场景下，每瓦性能可接近甚至超过低端服务器，但面临供电、散热、网络互联和软件栈碎片化等工程挑战。

训练框架·22 天前

SkyRL 开源视觉语言模型强化学习框架

Anyscale 在 SkyRL 中新增视觉语言模型（VLM）强化学习支持。SkyRL 是一个面向 LLM/VLM 强化学习的开源框架，此次更新将 RL 训练从纯文本扩展到多模态场景，支持图像输入与文本输出的联合优化。技术核心在于将视觉编码器与语言模型的 RL 训练流程打通，处理多模态 reward 信号与梯度传播。

4月23日周四

10 条

工具发布·23 天前

Claude Code v2.1.119 发布：设置持久化、GitLab PR 支持、OpenTelemetry 增强

Anthropic 发布 Claude Code v2.1.119，带来多项工程体验改进。核心变更包括：/config 设置（主题、编辑器模式、verbose 等）现在持久化到 ~/.claude/settings.json，并遵循项目/本地/策略覆盖优先级；新增 prUrlTemplate 设置，可将底部 PR 徽标指向自定义代码审查 URL；--from-pr 现在支持 GitLab MR、Bitbucket PR 和 GitHub Enterprise PR 链接；--print 模式开始尊重 agent 的 tools: 和 disallowedTools: 前置声明，与交互模式行为一致。OpenTelemetry 方面，tool_result 和 tool_decision 事件新增 tool_use_id，tool_result 还包含 tool_input_size_bytes。Hook 系统新增 duration_ms 字段（工具执行时间，不含权限提示和 PreToolUse 钩子）。修复了 Windows 剪贴板 CRLF 内容粘贴时多出空行的问题。

推理引擎·23 天前

Transformers v5.6.2 紧急修复 Qwen 3.5/3.6 MoE 在 FP8 下的推理崩溃

Hugging Face Transformers 发布 v5.6.2 补丁版本。此前 v5.6.x 中 Qwen 3.5 和 3.6 的 MoE（仅文本）模型在使用 FP8 精度推理时出现崩溃，本次补丁修复了配置读取与 kernel 错误处理逻辑（PR #45610），使 FP8 下的 MoE 推理恢复正常。无破坏性变更，仅修复 bug。

数据库·23 天前

ClickHouse 单引擎融合全文搜索与OLAP，叫板Elasticsearch日志场景

ClickHouse 官方发布博客，宣称其引擎现已同时支持全文搜索与大规模分析，成为 Elasticsearch 在日志分析领域的替代方案。文章附带了基准测试数据，但具体测试方法、数据集规模、对比版本等细节未在摘要中披露。核心变化在于 ClickHouse 在列式存储基础上补齐了全文检索能力，使同一套系统既能做高吞吐写入与聚合分析，又能做关键词搜索，无需额外搭建 ES 集群。

大模型·23 天前

OpenAI 发布 GPT-5.5 系统卡，披露安全与能力评估

OpenAI 于 2026 年 4 月 23 日发布 GPT-5.5 System Card，详细披露该模型在安全、偏见、幻觉、越狱攻击等方面的评估结果。系统卡延续了 GPT-4 系列的风险评估框架，涵盖红队测试、自动化安全评测、能力边界测试等内容。技术核心包括对齐训练方法、拒绝机制改进、以及针对多模态输入的安全过滤策略。未提及具体模型架构参数或训练细节。

工具发布·23 天前

ClickPipes 发布 Terraform & OpenAPI GA，全连接器覆盖

ClickHouse 宣布 ClickPipes 的 Terraform 与 OpenAPI 支持正式 GA。该功能允许用户以基础设施即代码（IaC）方式声明式地管理 ClickPipes 资源，现已覆盖全部连接器类型，并改进了易用性。核心变化包括：完整的连接器覆盖、更稳定的 API 接口、以及更好的 Terraform provider 体验。无破坏性变更说明。

推理引擎·23 天前

Transformers v5.6.1 紧急修复 Flash Attention 路径崩溃

Hugging Face Transformers 发布 v5.6.1 补丁版本，紧急修复 Flash Attention 路径中的 AttributeError。问题出在 flash_attention_forward 函数中 s_aux 参数可能为 None 时未做保护，导致推理/训练流程崩溃。该 bug 由社区贡献者 @jamesbraza 定位并提交 PR #45589 修复。v5.6.1 为纯 bugfix 补丁，无 API 变更或破坏性改动。

工具发布·24 天前

ClickHouse MCP 服务器接入 Google Antigravity，自然语言查数据库

ClickHouse 官方发布了 MCP 服务器，并演示了如何将其接入 Google Antigravity。用户可以用自然语言向 Antigravity 提问，由 MCP 服务器自动生成 SQL 查询 ClickHouse 并返回可视化结果。MCP（Model Context Protocol）是 AI 模型与外部工具之间的标准化协议，ClickHouse MCP 服务器封装了查询执行、Schema 发现等能力，使 LLM 能直接操作 ClickHouse 集群。

数据库·24 天前

ClickHouse Cloud 助力永産POS分析：高速・低コスト・高信頼

永産システム開発（Eisan System Development）采用 ClickHouse Cloud 重构其 POS 数据分析平台，替代原有自建 PostgreSQL 方案。核心诉求是提升查询速度、降低运维成本并保证可靠性。ClickHouse Cloud 的列式存储与向量化执行引擎使聚合查询提速数十倍，同时 Serverless 弹性扩缩消除了容量规划负担。文章未披露具体性能数字或成本对比，但强调了从自建到托管云服务的迁移路径与收益。

工具发布·24 天前

Claude Code v2.1.118 发布：Vim 视觉模式、/usage 合并、MCP 钩子增强

Anthropic 发布 Claude Code v2.1.118。新增 Vim 视觉模式（v/V）及操作符支持；将 /cost 与 /stats 合并为 /usage，保留快捷键；支持自定义主题创建与切换，插件可通过 themes/ 目录分发主题；Hooks 新增 type: "mcp_tool" 直接调用 MCP 工具；新增 DISABLE_UPDATES 环境变量彻底阻断更新；WSL 可通过 wslInheritsWindowsSettings 继承 Windows 托管设置；Auto mode 支持 "$defaults" 语法在保留内置规则的同时追加自定义规则；修复 MCP OAuth 无 expires_in 时每小时重认证、HTTP/SSE 自定义头服务器卡在认证状态等多项 bug。

大模型·24 天前

OpenAI 推出 Workspace Agents，Google 发布 Workspace Intelligence

OpenAI 发布 Workspace Agents，可在 Google Workspace 和 Microsoft 365 中执行跨应用任务，如自动整理邮件、生成会议纪要、管理文档等。Google 同步推出 Workspace Intelligence，基于 Gemini 2.5 Pro 深度集成，支持跨 Gmail、Drive、Calendar 的智能搜索与自动化。同时 Qwen3.6-27B 发布，延续 MoE 架构，在推理与编程任务上表现提升。

4月22日周三

8 条

数据库·24 天前

ClickHouse 集成 Google Lakehouse Runtime Catalog，打通湖仓查询

ClickHouse 宣布与 Google 的 Lakehouse Runtime Catalog 完成集成，使得 ClickHouse 可以直接查询 Lakehouse Runtime Catalog 管理的表元数据。该集成让用户无需手动维护表结构映射，即可在 ClickHouse 中对 Google Cloud 上的湖仓数据执行 OLAP 查询。技术核心在于 ClickHouse 通过外部表引擎对接 Lakehouse Runtime Catalog 的元数据接口，自动发现表 schema 和分区信息，从而消除传统湖仓查询中繁琐的 DDL 同步步骤。

数据库·24 天前

ClickHouse Cloud 迁移至 Axion C4A，查询提速 30–55%

ClickHouse 宣布将其 Google Cloud 集群迁移至 Axion C4A 实例。在 ClickBench 基准测试中，查询性能提升 30–55%，生产环境计算积分消耗降低约 15%。Axion 是 Google 自研的基于 Arm 架构的定制处理器，C4A 实例为其最新一代计算优化型实例。该迁移无需用户侧任何改动，完全由 ClickHouse Cloud 平台侧完成实例替换。

推理引擎·24 天前

Google 发布两款专用 TPU 第八代芯片，面向 Agent 时代

Google 在 Cloud Next 大会上宣布推出第八代 TPU 的两款专用芯片，分别针对推理和训练场景优化，定位为"Agent 时代"的基础设施。这是 Google 首次在同一代 TPU 中推出两款不同规格的芯片，表明其正在从通用加速器向场景专用芯片演进。目前官方尚未公布具体算力、显存容量、互联带宽等关键参数，也未说明是否兼容现有 TPU v5 的 Pod 拓扑。

训练框架·24 天前

DiLoCo 解耦：分布式训练容错的新范式

Google DeepMind 提出 Decoupled DiLoCo，一种面向大规模分布式 AI 训练的容错训练算法。核心思路是将 DiLoCo 的同步屏障与梯度聚合解耦，允许部分工作节点落后或临时失效而不阻塞全局训练进度。技术关键包括：异步局部更新 + 全局同步的松耦合设计，以及基于 staleness 感知的梯度聚合策略。实验表明在节点故障率高达 10% 的场景下，训练吞吐仅下降约 15%，而标准 DiLoCo 和 All-Reduce 方案几乎无法收敛。

系统与分布式·24 天前

Anyscale 推出 Agent Skills：基于 Ray 的 AI 工作负载调试与优化工具

Anyscale 发布了 Agent Skills，一套面向 Ray 上 AI 工作负载的开发工具，旨在加速构建、调试和优化流程。核心能力包括自动性能分析、分布式任务追踪和智能错误定位，帮助工程师更快定位 Ray 集群中的瓶颈与异常。该工具直接集成到 Ray 生态中，降低了分布式 AI 应用的运维复杂度。

推理引擎·25 天前

Ollama v0.21.1 发布：支持 Kimi CLI 与 MLX 推理多项优化

Ollama 发布 v0.21.1 版本，新增 Kimi CLI 启动支持，用户可通过 ollama launch kimi --model kimi-k2.6:cloud 直接运行 Kimi K2.6 多智能体系统，擅长长周期自主执行任务。MLX 运行器新增 logprobs 支持，采样阶段将 top-P 与 top-K 融合为单次排序并加入重复惩罚，提升采样速度；tokenization 移入请求处理 goroutine 以改善延迟；数组管理线程安全性增强。GLM4 MoE Lite 通过融合 sigmoid 路由头提升性能。修复 macOS 应用切换对话后模型显示陈旧、Gemma 4 在 think=false 时结构化输出异常等问题。无破坏性变更。

工具发布·25 天前

Claude Code v2.1.117 发布：子代理分叉、bfs/ugrep 原生搜索、OpenTelemetry 增强

Anthropic 发布 Claude Code v2.1.117，主要变化包括：子代理分叉（forked subagents）可通过环境变量 CLAUDE_CODE_FORK_SUBAGENT=1 在外部构建中启用；macOS/Linux 原生构建将 Glob 和 Grep 工具替换为内嵌的 bfs 和 ugrep，通过 Bash 工具执行，消除独立工具往返延迟；/model 选择在项目固定不同模型时仍能跨重启持久化；/resume 命令新增对陈旧大会话的摘要提示；MCP 服务器并发连接成为默认行为，加速启动；插件安装、更新、自动更新场景下新增 managed-settings 的 blockedMarketplaces 和 strictKnownMarketplaces 强制校验；Advisor Tool（实验性）修复了每次 prompt 和 /compact 时卡死的错误；OpenTelemetry 事件新增 command_name、command_source、effort 等属性，自定义/MCP 命令名默认脱敏；cleanupPeriodDays 保留清理范围扩展至 tasks/、shell-snapshots/、backups/ 目录。无破坏性变更。

数据库·25 天前

PostgreSQL 19 发布说明初稿完成，9月正式发布

PostgreSQL 19 发布说明初稿由 Bruce Momjian 完成，目标 9 月正式发布，未来数月内将推出 Beta 版。此外，Xata 将其 Postgres 平台核心技术以 Apache 2.0 开源，提供存储层写时复制分支、秒级克隆数据库、非活跃分支自动缩零等能力。TimescaleDB 展示了对超亿行热表的分区、冷数据压缩（最高 95%）和连续聚合预计算方案。Linux 7.0 对 Postgres 的吞吐回归问题也被深入调查，确认影响范围极小。

4月21日周二

2 条

数据库·25 天前

ClickHouse Cloud 将索引分片化，突破单节点内存瓶颈

ClickHouse Cloud 推出索引分片（index sharding）功能，将原本固定于每个副本节点的索引拆分为分布式共享资源。在 PB 级 OLAP 场景下，单节点内存无法容纳全部索引，分片后各副本只持有部分索引分片，查询时跨节点协同扫描。官方称此举降低了单节点内存压力，同时提升了索引分析速度和大规模工作负载的性能。

数据库·26 天前

PlanetScale 详解 Postgres 多租户：共享 Schema 最佳实践，RLS 不推荐

PlanetScale 发布博文，总结 Postgres 多租户架构的几种模式与最佳实践。文章将多租户方案分为三层：数据库集群级隔离、逻辑数据库级隔离、以及共享 Schema（即同一逻辑数据库内通过 tenant_id 字段区分租户）。PlanetScale 明确不推荐依赖 Postgres Row-Level Security (RLS) 实现租户隔离，认为其性能开销大、调试困难、且容易误配置导致数据泄露。推荐的做法是共享 Schema + 应用层强制 tenant_id 过滤，配合连接池或中间件确保租户无法跨域访问。文章还澄清了术语：此前使用的 "row-level isolation" 改为 "shared-schema"，避免与 RLS 混淆。

4月20日周一

1 条

数据库·26 天前

ELO 迁移 Elasticsearch 至 ClickHouse：存储缩至 1/6，成本降 87%

ELO 将支付监控平台从 Elasticsearch 迁移至 ClickHouse，由 Nava 团队实施。存储从 12 TB 降至 2 TB，年基础设施成本削减 87%，300 个实时仪表盘端到端延迟低于 2 秒。核心手段是利用 ClickHouse 的列式存储与高压缩比特性，大幅减少数据冗余；同时以物化视图和预聚合替代 ES 的倒排索引查询模式，消除大量中间结果缓存开销。

4月18日周六

3 条

数据库·28 天前

PgQue：零膨胀 Postgres 队列，用原生锁替代 LISTEN/NOTIFY

PgQue 是一个基于 PostgreSQL 构建的轻量级队列库，核心卖点是"零膨胀"——不依赖 pg_partman、pgmq 等扩展，仅用 PostgreSQL 内置的行级锁（SELECT ... FOR UPDATE SKIP LOCKED）实现消息出队，避免了传统 LISTEN/NOTIFY 机制在大并发下的膨胀问题。项目提供类似 Sidekiq 的 API，支持延迟任务、重试、可见性超时等常见队列语义，所有状态都存储在单张 PostgreSQL 表中，无需额外中间件。

数据库·28 天前

SQLite 临时文件前缀 etilqs_ 的由来

SQLite 在创建临时文件时，文件名统一以 etilqs_ 为前缀。这个看似随机的字符串实际上是 "SQLite" 的字母逆序（etilqs = SQLite 反转）。该设计用于避免临时文件与其他进程的文件冲突，同时方便调试时识别 SQLite 创建的临时文件。临时文件通常用于排序、创建索引、大事务回滚日志等场景，默认存放在系统临时目录下。

推理引擎·29 天前

vLLM v0.19.1 发布：升级 Transformers 5.5.3 并修复 Gemma4 流式工具调用 Bug

vLLM 发布 v0.19.1 补丁版本，基于 v0.19.0 升级 Transformers 至 v5.5.3，并集中修复 Gemma4 模型的多个流式工具调用 Bug。关键修复包括：流式工具调用中 JSON 分隔符残留导致非法 JSON、HTML 内容重复、布尔/数值类型切分后拼接错误、裸 null 被转为字符串 "null" 等问题。此外新增对 Gemma4 量化 MoE、Eagle3 投机解码、LoRA 适配器加载的支持，并修复了 PT 模型因缺少 BOS token 导致的 token 重复问题。

4月17日周五

20 条

数据库·29 天前

ClickHouse 原生集成 Iceberg，打通开放表格式查询与写入

ClickHouse 宣布原生集成 Apache Iceberg 等开放表格式，用户可直接查询 Iceberg 表、将 ClickHouse 数据写入 Iceberg，并在 Iceberg、Delta Lake、Hudi 之间做联邦查询。技术核心包括：利用 Iceberg 的 manifest 和 manifest list 实现分区裁剪与谓词下推，避免全表扫描；通过 Parquet 列存格式对齐 ClickHouse 向量化执行引擎，减少序列化开销；未来路线图计划支持 Iceberg REST Catalog、表维护（compaction、snapshot 过期）以及更深的统计信息集成以提升查询剪枝效率。

数据库·29 天前

开源实现 Delta Lake CDC 到 ClickHouse 的实时同步

ClickHouse 博客发布了对 Delta Lake Change Data Feed (CDF) 的深度调研结果，并开源了一套 MIT 协议的 Python 参考实现，用于将 Delta Lake 的变更数据实时同步到 ClickHouse。文章详细分析了 Delta Lake CDF 的工作原理：每次写入事务会生成一个版本号，CDF 通过读取指定版本区间内的新增数据文件（而非解析事务日志全文）来获取变更。实现中需要处理 Schema 演进、删除向量（Deletion Vectors）以及时间旅行（Time Travel）等边界情况。该方案适用于需要将数据湖变更实时入仓的 OLAP 场景。

数据库·29 天前

ClickHouse Cloud 新增 DataLakeCatalog 引擎，直查 Iceberg 与 Delta Lake

ClickHouse Cloud 发布 DataLakeCatalog 引擎，支持直接查询 Iceberg 和 Delta Lake 表。用户连接 Glue 或 Unity Catalog 后，引擎自动发现湖仓中的表，无需手动注册即可用 ClickHouse 的 OLAP 速度执行查询。该引擎将 Catalog 层抽象为统一入口，屏蔽了不同湖格式的元数据差异。

数据库·29 天前

开放表格式能否撑起可观测性？ClickHouse 深度剖析 Lakehouse 路径

ClickHouse 官方博客发文探讨 Iceberg、Delta Lake 等开放表格式（OTF）能否成为可观测性场景的底层存储方案。文章指出，当前 OTF 在写入吞吐、分区管理、数据压缩和实时查询延迟上均未达到生产级可观测性需求，尤其是小文件膨胀和缺乏高效的 time-based 分区剪枝能力。但文章也认为，若引入列式写入缓冲层、自适应 compaction 策略以及针对时间序列的索引优化，Lakehouse 架构有望在未来实现低成本、无锁定的开放可观测性方案。

工具发布·29 天前

otel.fyi 上线：为 OpenTelemetry Collector 配置文档打造搜索优先体验

ClickHouse 团队发布 otel.fyi，一个面向 OpenTelemetry Collector 配置文档的搜索优先站点。该站点将分散在官方文档各处的 receivers、processors、exporters、extensions 配置项集中索引，支持快速模糊搜索与直接跳转。技术核心在于对 OTel Collector 各组件配置 schema 的结构化提取与全文索引，解决了官方文档多页面分散、跨组件查找效率低的问题。

数据库·29 天前

ClickHouse Cloud 推出 Warehouses：实现计算-计算分离

ClickHouse Cloud 发布 Warehouses 功能，在已有存储-计算分离架构之上进一步实现计算-计算分离（compute-compute separation）。每个 Warehouse 是一组独立计算节点，可绑定特定租户或工作负载，共享同一对象存储中的数据。核心机制是计算节点之间通过共享元数据层协调数据可见性，写入在一个 Warehouse 完成后，其他 Warehouse 通过元数据刷新即可读取最新数据，无需跨 Warehouse 拷贝数据。该方案帮助用户实现租户隔离、资源独立扩缩容，并优化整体资源利用率与成本。

数据库·29 天前

用 ClickHouse 一栈实现 Medallion 架构：从原始数据到分析就绪

ClickHouse 官方博客介绍了如何仅用 ClickHouse 自身能力实现 Medallion（青铜/白银/黄金）分层架构，无需引入 Spark、dbt 等外部 ETL 引擎。核心思路是利用 ClickHouse 的物化视图（Materialized View）和 Incremental Materialized View 实现青铜→白银→黄金的增量转换：青铜层直接存储原始数据（如 Kafka 表引擎或 S3 表函数）；白银层通过物化视图做清洗、去重、类型转换；黄金层再做聚合、宽表、业务指标计算。文章强调所有转换都在 ClickHouse 内部完成，利用其列存和向量化执行引擎保证性能，避免数据搬运。

数据库·29 天前

ClickHouse 跑完 Databricks/Snowflake JOIN 基准测试，更快更便宜

ClickHouse 官方博客发布了一项 JOIN 性能对比测试，选取 Databricks 和 Snowflake 公开的 JOIN 密集型 SQL 基准查询，在 ClickHouse Cloud 上原样运行。测试数据规模从 7.21 亿行到 72 亿行，ClickHouse 在所有规模下均比竞品更快且成本更低。这是系列文章的第一篇，后续会深入分析具体优化手段。

数据库·29 天前

ClickHouse 用内存字典替换 JOIN，查询提速 6.6 倍

ClickHouse 官方博客发布 JOIN 基准测试第二弹，延续第一部分的测试场景，通过将 JOIN 替换为内存字典（in-memory dictionaries），在不重新加载数据或修改 Schema 的前提下，实现最高 6.6 倍查询加速，同时成本降低超过 60%。该方案无需变更现有表结构，仅需在查询层将字典查找替代传统 JOIN 操作，利用 ClickHouse 内置的字典引擎将小表全量加载到内存中，避免分布式 JOIN 带来的网络与计算开销。

数据库·29 天前

从 Postgres 到 ClickHouse：数据建模迁移实战指南

ClickHouse 官方博客发布了一篇从 Postgres 迁移到 ClickHouse 的数据建模指南。文章重点介绍了 ReplacingMergeTree 引擎在去重场景下的使用方式，以及如何通过合理的 Ordering Key 和 PRIMARY KEY 策略来优化查询性能。核心思路是将 Postgres 的 OLTP 行存模型转换为 ClickHouse 的 OLAP 列存模型，利用排序键替代传统 B-Tree 索引来加速范围查询与聚合。

工具发布·29 天前

ClickHouse 开源 agentic CLI，加速 Postgres 应用接入 OLAP

ClickHouse 发布开源命令行工具 clickhouse.build，专为已有 Postgres 后端 TypeScript 应用设计，旨在降低引入 ClickHouse 做分析查询的门槛。该 CLI 通过 agentic 方式自动识别 Postgres 中的慢查询或分析型负载，生成迁移建议并配置 ClickHouse 数据同步，开发者无需手动编写 ETL 或修改应用代码。

数据库·29 天前

Polymarket 将分析型查询从 PG 迁至 ClickHouse，支撑实时用户功能

Polymarket 将计算密集型分析工作负载从 PostgreSQL 迁移到 ClickHouse，以支撑用户侧实时功能。迁移后，原本需要数秒的复杂聚合查询降至毫秒级，同时释放了 PG 的 OLTP 能力。文章详细描述了数据管道架构：PostgreSQL 通过 PeerDB 实时 CDC 同步到 ClickHouse，再通过 ClickHouse 物化视图预聚合，最终由 API 层直接查询物化视图返回给前端。关键设计包括使用 ReplacingMergeTree 处理去重、利用 AggregatingMergeTree 做增量聚合，以及通过 ClickHouse 的极简 SQL 语法实现复杂漏斗分析。

数据库·29 天前

Common Room 用 ClickHouse 替换 Postgres 支撑实时客户分析

Common Room 是一家 AI 客户智能平台，将其客户门户的实时分析引擎从 PostgreSQL 迁移至 ClickHouse。迁移后，查询性能显著提升，能够支撑更复杂的实时聚合与多维分析场景。核心替换逻辑是将原先 Postgres 中通过物化视图、索引和查询优化来勉强支撑的 OLAP 负载，直接交由列式存储 + 向量化执行的 ClickHouse 处理，消除了大量维护成本和查询延迟瓶颈。

数据库·29 天前

ClickHouse 推出原生集成 PostgreSQL 托管服务

ClickHouse 宣布推出企业级托管 PostgreSQL 服务，与 ClickHouse 原生集成，面向实时和 AI 驱动应用。该服务主打快速、可扩展，将 PostgreSQL 的 OLTP 能力与 ClickHouse 的 OLAP 能力打通，用户可在同一平台内管理两种数据库。

数据库·29 天前

Redshift 迁移 ClickHouse：OLAP 引擎选型与实战对比

ClickHouse 官方发布博客，从架构、查询性能、存储成本、生态兼容等维度对比 Redshift 与 ClickHouse，并给出迁移建议。文章指出 ClickHouse 在实时写入、列存压缩比、多表 JOIN 及物化视图方面具备优势，而 Redshift 在 AWS 生态集成和事务支持上更成熟。博客未提供具体基准测试数据，侧重定性对比与迁移路径说明。

数据库·29 天前

ClickHouse 用物化路径加速 JSON 查询，Bluesky 看板延迟压至 100ms 以下

ClickHouse 官方博客介绍如何优化 JSON 数据查询，使仪表盘响应时间稳定在 100ms 以下，即使表中包含数十亿 JSON 文档。核心技术是使用物化路径（materialized path）将 JSON 字段映射为列式存储中的扁平列，避免每次查询时解析 JSON 的开销。文章还讨论了如何利用 ClickHouse 的物化列（materialized columns）和投影（projections）来预计算常用 JSON 路径，从而在写入时完成解析，查询时直接读取预计算列。

数据库·29 天前

迁移至 ClickHouse 后查询提速 33 倍，Auditzy 的 OLAP 选型实录

印度初创公司 Auditzy 因 Postgres 性能瓶颈，将核心分析查询迁移至 ClickHouse。迁移后查询速度提升 33 倍，数据压缩率提高 10 倍。ClickHouse 的列式存储与向量化执行引擎是提速关键，而 Postgres 在 OLAP 场景下因行式存储和缺乏向量化导致 I/O 与 CPU 效率低下。

数据库·29 天前

beehiiv 从 Postgres 迁移到 ClickHouse：Newsletter 平台的数据架构演进

beehiiv 是一个帮助创作者和企业的 Newsletter 平台，其数据架构从 Postgres 迁移到了 ClickHouse。迁移的核心原因是 Postgres 在分析型查询和大规模数据聚合场景下性能不足，而 ClickHouse 的列式存储和向量化执行引擎能显著提升查询效率。文章详细介绍了迁移过程中的架构设计、数据同步策略以及最终的性能收益。

数据库·29 天前

云数仓走向解体：从一体化到组件化重构

ClickHouse 官方博客发文指出，云数据仓库（如 Snowflake、Redshift）的一体化霸权时代正在终结。核心论点是：随着数据规模增长和实时分析需求爆发，单一引擎无法同时满足存储、计算、查询、治理等所有需求，行业正走向"解绑"——存储与计算分离、查询引擎与存储格式解耦、元数据与数据分离。博客以 ClickHouse 自身演进为例，说明如何通过 ClickHouseKeeper（基于 Raft）、对象存储集成、以及轻量级物化视图等机制，让用户按需组合组件，而非被锁定在全栈方案中。

数据库·29 天前

Trio 迁移 ClickHouse Cloud 存储降 88%，统一支付分析平台

巴西金融科技公司 Trio 将支付分析平台迁移至 ClickHouse Cloud，实现存储减少 88%、查询速度"代际飞跃"。平台处理 2.43 亿+ 笔支付和每日 10 亿+ 事件。核心技术是滑动窗口（sliding window）机制处理延迟到达和重复数据，在实时流与最终一致性之间做权衡，避免传统批处理带来的存储膨胀和查询延迟。

4月16日周四

3 条

推理引擎·2026/4/16

Ollama v0.21.0 发布：Hermes 学习型 Agent 与 Gemma 4 MLX 支持

Ollama 发布 v0.21.0，核心亮点是 Hermes Agent——一个能根据用户工作流自动学习并创建技能的本地 Agent，通过 ollama launch hermes 即可启动。技术层面，新增 Gemma 4 在 Apple Silicon 上的 MLX 运行时支持，包含混合精度量化、Conv2d/Pad/RoPE 等算子封装；ollama launch 集成 Hermes 和 GitHub Copilot CLI，OpenCode 改为内联配置，且当模型列表未变化时不再重写配置文件。修复了 Gemma 4 Metal 编译错误、macOS 交叉编译触发 generate 的问题，以及 openclaw --yes 跳过频道配置的 bug。

工具发布·2026/4/16

clickhousectl 发布：ClickHouse 官方 CLI 统一本地与云端管理

ClickHouse 官方推出 clickhousectl 命令行工具，支持项目脚手架生成、本地服务器管理、ClickHouse Cloud 连接以及 CI/CD 集成。用户可通过单一 CLI 完成从开发到部署的全流程操作，无需在本地客户端和云控制台之间切换。工具提供类似 kubectl 的声明式配置风格，降低 ClickHouse 的运维门槛。

数据库·2026/4/16

ClickHouse 官方发布十大最佳实践：主键设计到物化视图全覆盖

ClickHouse 官方博客发布十大最佳实践指南，涵盖主键设计、数据类型选择、物化视图、ReplacingMergeTree 使用及 Join 优化等核心主题。所有建议均基于 1.5 亿行数据集的基准测试验证。文章强调主键列顺序直接影响查询过滤效率，建议将高基数过滤列前置；数据类型应优先选用整数而非字符串以降低存储与计算开销；物化视图适用于预聚合高频查询模式，但需注意增量更新语义。ReplacingMergeTree 的最终一致性特性要求业务层容忍重复数据，Join 优化则推荐使用字典或 Global Join 减少分布式查询的网络开销。

昨天 · 5月16日 周六

5月15日 周五

5月14日 周四

5月13日 周三

5月12日 周二

5月11日 周一

5月10日 周日

5月9日 周六

5月8日 周五

5月7日 周四

5月6日 周三

5月5日 周二

5月4日 周一

5月1日 周五

4月30日 周四

4月29日 周三

4月28日 周二

4月27日 周一

4月26日 周日

4月24日 周五

昨天 · 5月16日周六

5月15日周五

5月14日周四

5月13日周三

5月12日周二

5月11日周一

5月10日周日

5月9日周六

5月8日周五

5月7日周四

5月6日周三

5月5日周二

5月4日周一

5月1日周五

4月30日周四

4月29日周三

4月28日周二

4月27日周一

4月26日周日

4月24日周五