InfoPie · AI · 大模型 · 数据库

昨天 · 5月16日周六

5 条

大模型·13 小时前

本地 Qwen 3.6 量化版单文件编码任务直追前沿模型

Reddit 用户用同一段 prompt（单 HTML 文件 + Canvas 实现汽车驾驶动画，含视差滚动、车轮旋转、光影效果）对比了本地量化模型与前沿闭源模型的编码能力。本地端测试了 Qwen3.6-27B/35B、Qwen3.5 9B/4B、Gemma-4-31b 等量化版本（Q4_K_M/Q8），在 Ryzen 5 5600 + 24GB DDR4 + RX 5700 XT 8GB 上运行，Qwen3.6-35B A3B Q4_K_M 达到 12.13 tok/s，而 Qwen3.6-27B 仅约 2.7 tok/s。前沿端通过 Perplexity 调用 Claude Sonnet 4.6 Thinking、Gemini 3.1 Pro Thinking、GPT 5.4 Thinking、Kimi k2.6 Thinking。评测聚焦于动画真实感、视差层次、车轮旋转与车身联动等视觉质量，而非标准 benchmark 分数。

推理引擎·16 小时前

llama.cpp b9180 支持 MTP 推测解码与 GDN 部分回滚

llama.cpp 发布 b9180 版本，核心变化是支持 Multi-Token Prediction (MTP) 用于推测解码（speculative decoding）。该版本新增了 draft-mtp 模型标识，允许目标模型在推测解码中回滚至多 draft_max 步，通过存储 GDN（Gated Delta Net）中间状态实现部分序列回滚（partial seq_rm）。Metal 和 Vulkan 后端均已适配 GDN 部分回滚逻辑。同时修复了循环记忆模型中的位检查 bug，并禁用了基于 RS 的 MTP 与其他推测类型的组合使用。

推理引擎·16 小时前

Strix Halo 实测：llama.cpp MTP 让 27B 模型生成速度翻倍

Reddit 用户在高性能 APU Strix Halo（AMD Ryzen AI MAX+ 395）上对 llama.cpp 的 MTP（Multi-Token Prediction）功能进行了基准测试。测试使用 Qwen3.6-27B 和 35B-A3B 模型，对比开启与关闭 MTP 时的端到端性能。结果显示，27B 模型在 5 轮对话场景下总耗时从 258.65 秒降至 200.55 秒（-22.46%），生成吞吐从 7.61 t/s 提升至 17.98 t/s（+136%），但 Prompt 处理吞吐下降约 18%。35B 模型则整体持平或略慢，生成速度虽有提升但 Prompt 处理降幅更大，多轮对话总耗时基本持平。MTP 在小模型、长上下文场景下收益显著，但对大模型或短上下文场景收益有限。

论文速递·23 小时前

δ-mem 提出在线记忆机制，让 LLM 长上下文推理效率提升 3 倍

大模型在处理超长上下文时，KV cache 随序列长度线性增长，导致推理延迟和显存开销急剧上升。δ-mem 提出一种在线记忆机制，将历史上下文压缩为可更新的记忆状态，仅在需要时从记忆中检索相关信息，从而避免全量 KV cache 的存储与计算。实验表明，在 128K 上下文长度下，δ-mem 将推理延迟降低约 3 倍，显存占用减少 60% 以上，同时保持与全注意力基线相当的任务准确率。

大模型·1 天前

Qwen3.6-35B-A3B 登顶 Terminal-Bench 2.0，超越 Gemini 2.5 Pro

Qwen3.6-35B-A3B 与 9B 模型正式登上 Terminal-Bench 2.0 公开榜单。little-coder 脚手架配合 Qwen3.6-35B-A3B 取得 24.6%（±3.2）的成绩，超越 Gemini 2.5 Pro（19.6%）和 Qwen3-Coder-480B（23.9%），证明了脚手架-模型协同优化在困难 agentic 基准上的有效性。Qwen3.5-9B 获得 9.2%，表明 10B 以下本地模型也能在硬基准上被量化评估。

5月15日周五

6 条

推理引擎·1 天前

Orthrus 冻结主干网实现 7.8× 加速，输出分布与 Qwen3 完全一致

Orthrus 提出一种扩散注意力模块，注入冻结的 Qwen3-8B 自回归 Transformer 每层，实现最高 7.8× tokens/forward 加速。核心思路：扩散头并行投影 K=32 个 token，AR 头二次验证并接受最长匹配前缀，两路共享同一 KV cache。仅训练 16% 参数、<1B token、8×H200 上 24 小时。与 EAGLE-3、DFlash 等推测解码方案相比，无需外部草稿模型、无需独立 KV cache、零 TTFT 惩罚；KV 开销仅约 4.5 MiB。MATH-500 上接受长度 11.7 vs DFlash 7.9 vs EAGLE-3 3.5。单步去噪优于多步，KL 蒸馏优于 CE。局限：受限于冻结基座模型能力，仅 Qwen3 评估，仅支持贪心+拒绝采样。

工具发布·1 天前

Equibles 开源 MCP 服务器，让本地 LLM 获取实时美国金融数据

开发者 Daniel 发布 Equibles，一个自托管的开源 MCP 服务器，专为本地大模型提供实时美国金融数据。它爬取并暴露 SEC 文件（10-K/10-Q/8-K 全文搜索）、13F 机构持仓、内幕交易、国会交易、FINRA 做空数据、FRED 经济指标、CFTC 期货持仓、CBOE VIX/看跌看涨比以及日线价格与技术指标，全部以 MCP Tool 形式暴露。无需云依赖、无需 API Key、无遥测，完全运行在用户本地机器上，兼容 Claude Code/Desktop、Cursor 及任何 MCP 客户端。

推理引擎·1 天前

离线行李箱机器人：Jetson Orin NX 跑 Gemma 4，200ms 缓存 TTFT

一位开发者用 Jetson Orin NX SUPER 16GB 打造了完全离线的行李箱机器人 Sparky，无 WiFi/BT/蜂窝网络。核心推理引擎为 llama.cpp 加载 Gemma 4 E4B（Q4_K_M 量化，q8_0 KV cache，flash attention），12K 上下文，缓存 TTFT 约 200ms，持续 14-15 tok/s。语音采用 SenseVoiceSmall STT + Piper TTS（43Hz 口型同步），视觉与 OCR 由 Gemma 4 原生完成，不再需要 BLIP 子进程。30+ 传感器数据每轮以自然语言拼入 prompt。最大优化点：将 persona 和工具描述放在 prompt 顶部，历史在中间，动态传感器和视觉数据放在最新用户轮次末尾，避免系统块内动态内容破坏前缀缓存。

大模型·1 天前

Intern-S2-Preview：35B 科学多模态模型通过任务缩放逼近万亿参数性能

上海 AI Lab 发布 Intern-S2-Preview，一个 35B 参数的科学多模态基础模型。不同于传统参数和数据缩放，该模型探索"任务缩放"——通过增加科学任务的难度、多样性和覆盖度来解锁模型能力。基于 Qwen3.5 继续预训练，采用从预训练到强化学习的全链条训练管线，在多个核心专业科学任务上达到与万亿参数级 Intern-S1-Pro 相当的性能。技术亮点包括：RL 阶段引入共享权重 MTP（Multi-Token Prediction）配合 KL 损失，减少训练与推理行为不匹配，显著提升 MTP 接受率和 token 生成速度；同时采用 CoT 压缩技术缩短推理响应长度。该模型也是首个同时具备材料晶体结构生成能力和强通用能力的开源模型。

大模型·1 天前

Anthropic 用 5 天让 Claude 自主攻破 macOS 安全防线

Anthropic 发布 Mythos 项目成果：Claude 在无人类干预的情况下，花费 5 天时间自主发现并利用 macOS 零日漏洞，成功突破系统安全防线。Mythos 的核心技术路线是让模型在沙箱环境中反复执行"假设-验证-利用"循环，结合代码生成与动态调试能力，逐步缩小攻击面。该实验展示了前沿 AI 模型在复杂系统安全评估中的自主能力，也引发了对 AI 驱动攻击的担忧。

推理引擎·2 天前

本地实测 Qwen 3.6 MTP：35B MoE 模型 300K 上下文仅用 28GB VRAM

Reddit 用户使用 unsloth 发布的 Qwen3.6-35B-A3B-UD-Q5_K_S（MTP 版）在本地进行多轮长上下文测试，构建 Pygame 迷宫游戏。在 32GB RDNA 4 显卡上，35B MoE 模型在 Q4_0 量化下达到 300K 上下文，VRAM 占用 28.3GB，仍有空间扩展到 400K。用户实测 MTP 版本在 27B 稠密模型上带来约 1.5 倍 tokens/s 加速，但 35B MoE 版本仅提升不到 10%。测试中 MoE 模型在 200K 附近出现稳定性问题，切换至 Q8_0 量化的 27B 模型后解决。MTP 推理需使用 llama.cpp 的 MTP 原型 Docker 镜像（haven oammo/llama:vulkan-server），后端为 Vulkan。

5月14日周四

10 条

推理引擎·2 天前

vLLM 发布 TurboQuant 全面评测：FP8 仍是 KV Cache 量化最佳默认方案

vLLM 官方博客对 TurboQuant 系列 KV Cache 量化方法进行了首次全面评测。核心结论：FP8（--kv-cache-dtype fp8）依然是生产环境的最佳默认选择，提供 2 倍 KV Cache 容量且精度损失可忽略，在内存受限场景下性能显著优于 BF16。TurboQuant k8v4 相比 FP8 无明显优势，仅将容量提升至 2.4 倍但带来吞吐和延迟的持续下降。4bit-nc 变体在边缘部署等内存极度受限场景下有一定实用价值，但需付出精度、延迟和吞吐的折中。k3v4-nc 和 3bit-nc 在推理和超长上下文任务上精度下降明显，同时严重劣化延迟和吞吐，不适合生产部署。

推理引擎·2 天前

RTX 5000 PRO 48GB 实测：4400 tok/s 提示处理，vLLM 部署 Qwen3 27B 全精度缓存

一位零 PC 组装经验的用户以 $4300 购入 RTX 5000 PRO 48GB，总装机成本 $5600，成功部署 Qwen3.6-27B-FP8 模型并启用全精度 KV 缓存。实测提示处理（PP）速度达 4400 tok/s，文本生成（TG）速度 50-80 tok/s。用户全程借助 Claude Code 完成 Linux 环境配置与 vLLM 调优，消耗了每周 20 次 Claude Code Max 限额的 50%。该卡在 48GB 显存下可支撑 200K 上下文窗口的 BF16 KV 缓存，性能超出预期。

大模型·2 天前

Anthropic 强制默认 Adaptive Thinking，固定推理预算选项被废弃

Anthropic 宣布废弃 Opus 4.6 和 Sonnet 4.6 上的固定推理预算（extended thinking）模式，强制默认使用 adaptive thinking。新模型 Opus 4.7 已完全移除 manual extended thinking，调用时返回 400 错误。社区用户质疑此举是成本削减策略：API 用户按 token 付费，却无法选择花更多钱换取固定推理预算来保证回答质量。用户还指出，Claude Code 在关闭 adaptive thinking 后质量下降问题消失，且未见 adaptive thinking 在效果上优于固定预算的案例。

大模型·2 天前

Anthropic 推出 Claude 认证架构师考试

Anthropic 发布了 Claude Certified Architect 认证考试，面向使用 LLM 的工程人员。考试内容涵盖评估（evals）、护栏（guardrails）、RAG 的正确实现、多智能体编排，以及何时不应使用 LLM。考试难度在于材料本身不繁重，但考题全面深入，需要真正理解工程实践而非死记硬背。认证入口通过 Skilljar 平台开放，同时配套官方学习视频。

训练框架·2 天前

Anyscale 发布 Agent Skill 工具，强化 LLM 后训练阶段

Anyscale 推出 Agent Skill 工具，专为 LLM 后训练（post-training）阶段设计，帮助开发者将智能体能力注入模型。该工具聚焦于后训练环节，而非预训练或推理部署，核心是让模型学会工具调用、多步推理等 agent 行为。目前公开信息有限，具体实现细节、支持的数据格式和训练策略尚未披露。

向量库与RAG·3 天前

本地 LLM 做个人知识库：RAG 落地消费硬件的真实痛点

Reddit 用户发帖询问是否有人真正把本地 LLM 当作日常个人知识库使用（非编码、非实验），引发社区讨论。核心痛点集中在三方面：消费级硬件上 RAG 的检索精度不可靠，用户需要反复核对结果；LlamaIndex、Ollama 等工具链变化太快，两年前的教程已失效；个人文档积累后上下文长度管理困难。社区反馈显示，目前尚无开箱即用的方案，维护成本接近一份兼职工作。

大模型·3 天前

开发者实测：Claude Code Opus 4.7 零错误完胜 GPT-5.5 Codex，但价格差距在缩小

一位开发者用两个真实任务（PR 分类机器人与实时代码审查 UI）对比了 Claude Code（Opus 4.7）和 GPT-5.5 Codex（通过 Cursor）。Claude 在 12 分钟内构建 36 个文件，首次运行零错误，总成本约 $2.50；Codex 因 Cursor 环境问题未能完成第一个任务，第二个任务需补丁修复无限循环，架构更紧凑（28 个文件），成本约 $2.04（便宜 18%）。作者认为复杂架构任务仍首选 Opus，但 Codex 在紧凑型任务中已具备竞争力，定价差距首次引起关注。

推理引擎·3 天前

llama.cpp b9142 发布：为 Adreno GPU 添加 Q5_0/Q5_1 MoE 支持

llama.cpp 发布 b9142 版本，核心变更为 OpenCL 后端为 Adreno GPU 新增 Q5_0 和 Q5_1 两种 5-bit 量化格式的 MoE（混合专家）支持。该 PR 由 Qualcomm 工程师贡献，同时修复了潜在的内存泄漏问题，并针对非 Adreno 平台抑制了未使用变量警告。此次更新不涉及 API 破坏性变更，属于推理引擎后端的量化能力扩展。

推理引擎·3 天前

llama.cpp b9141 新增 vLLM 兼容的 continue_final_message 标志

llama.cpp 发布 b9141 版本，核心变化是 server 和 webui 端新增 continue_final_message 标志，用于兼容 vLLM 和 transformers API。该标志与 add_generation_prompt false 配合时，会触发已有的 prefill_assistant 代码路径，实现对话续写功能；与 add_generation_prompt true 互斥，违反时返回 HTTP 400。WebUI 的 Continue 按钮已接入此标志。本次发布不涉及底层推理逻辑改动，纯 API 对齐，为后续 per-template prefill 改造铺路。

推理引擎·3 天前

llama.cpp b9140 修复 Adreno 上 MoE 预热崩溃

llama.cpp 发布 b9140 版本，核心修复是 OpenCL 后端在 Adreno GPU（高通移动 GPU）上预热 MoE（混合专家）模型时的崩溃问题（issue #22876）。该版本同步更新了各平台二进制包，包括 macOS（Apple Silicon / Intel）、Linux（x64/arm64/s390x，支持 Vulkan/ROCm/OpenVINO/SYCL）、Android arm64 及 Windows x64。无 Breaking Change。

5月13日周三

4 条

大模型·3 天前

Anthropic 将 Claude --print 划入 SDK 计费，CLI 自动化方案遭堵

Anthropic 宣布从 6 月 15 日起，Claude CLI 的 --print 模式将被视为"程序化"SDK 使用，不再计入 Pro/Max 套餐的 CLI 免费额度，而是走独立的月度信用额度（$100/月）。这意味着此前社区利用 --print 实现脚本化、自动化调用 Claude（绕过 API 计费）的玩法正式被堵住。用户若想继续以编程方式控制 Claude，要么购买 SDK 信用包，要么改用官方 Claude Code 交互式模式。

推理引擎·3 天前

AMD MI50 八卡跑 Qwen 3.6 27B，52.8 tps 推理吞吐实测

社区用户在一台 8×AMD MI50（2018 年发布，gfx906 架构）的机器上，用 vLLM 分支 v0.20.1 + ROCm 7.2.1 跑 Qwen3.6-27B 全精度模型（无量化、无 MTP、无 DFlash），测得 TG 52.8 tokens/s、PP 1569 tokens/s（15K prompt）。TP=8 时模型刚好装下，TP=2 也能跑约 34 tps。作者认为该配置已可用于 Claude Code 或 Hermes 等 agent 场景，并指出通过 PCIe switch 降延迟、优化 ROCm 上的 DFlash/MTP 仍有提升空间。

工具发布·3 天前

TextGen 从 Web UI 变身原生桌面应用，对标 LM Studio

TextGen（原名 text-generation-webui，作者 oobabooga）发布原生桌面应用版本，提供 Windows/Linux/macOS 免安装便携构建。项目自 2022 年 12 月启动，早于 LLaMA 和 llama.cpp。新版本通过 Electron 封装实现零安装体验，解压即用，所有数据保存在 user_data 目录内。支持 CUDA、Vulkan、ROCm、CPU-only 及 Apple Silicon/Intel 构建。核心差异化：零遥测（无出站请求）、内置 ik_llama.cpp 提供 IQ4_KS/IQ5_KS 等新量化类型、集成 ddgs 库实现 Web 搜索工具调用、支持 .py 脚本/HTTP MCP/stdio MCP 三种工具调用方式。

推理引擎·3 天前

Ovis2.6-80B-A3B：80B参数MoE多模态模型，推理仅激活3B

阿里云AIDC发布Ovis2.6-80B-A3B多模态大模型，将LLM骨干升级为Mixture-of-Experts（MoE）架构，总参数80B但推理时仅激活约3B参数，大幅降低服务成本。模型支持64K上下文窗口和2880×2880高分辨率图像输入，新增"Think with Image"能力——模型可在Chain-of-Thought推理过程中主动调用裁剪、旋转等视觉工具对图像区域进行多轮自反思分析，提升复杂视觉任务的准确率。此外，OCR、文档和图表理解能力得到强化，特别适合长文档问答场景。

5月12日周二

5 条

推理引擎·4 天前

在 Game Boy Color 上跑 Transformer 语言模型

开发者将 Andrej Karpathy 的 TinyStories-260K 模型移植到原版 Game Boy Color 上运行。模型权重转为 INT8 定点数，通过 GBDK-2020 编译为 MBC5 卡带 ROM。权重存储在 bank-switched 卡带 ROM 中，KV cache 写入卡带 SRAM（因 GBC 工作 RAM 极小）。用户在设备上用 D-pad 和屏幕键盘输入提示词，在 GBC 上完成 tokenize、prefill 和自回归生成。由于重度量化与近似计算，输出为乱码，但核心链路跑通。项目使用 Codex 辅助生成大量代码。

工具发布·4 天前

Claude Code 静默切换计费：.env 中的 API Key 会覆盖 Max 订阅

用户发现 Claude Code 在启动时会读取工作目录下 .env 文件中的 ANTHROPIC_API_KEY，并静默使用该 Key 计费，而非 OAuth 订阅（Max 计划）。一位用户因此被扣费 $187，Anthropic 客服确认这是"有意设计的功能"——优先使用环境变量中的 API Key 进行认证和计费，且不提供任何提示或开关。修复方式是在启动 Claude Code 前清除该环境变量（unset ANTHROPIC_API_KEY）。该行为对 headless 运行（cron、Task Scheduler、CI）影响最大。

工具发布·4 天前

LLM 0.32a2 发布：支持 OpenAI 新版 Responses API 与推理 Token 显示

Simon Willison 发布 LLM 命令行工具 0.32a2 版本。核心变化是 OpenAI 推理类模型（如 GPT-5）默认切换到 /v1/responses 端点而非 /v1/chat/completions，从而支持跨工具调用的交错推理。用户现在可以在终端中看到以不同颜色显示的推理 token 摘要，也可通过 -R 或 --hide-reasoning 参数隐藏。该版本为 alpha 阶段，无破坏性变更说明。

推理引擎·5 天前

调大 ubatch 让 llama.cpp MoE 模型预填提速 5.5 倍

用户在 RTX 3090 上运行 gpt-oss-120b-F16.gguf 时发现，将 llama.cpp 的物理微批大小（-ub）从默认 512 提升至 8192，同时将 --n-cpu-moe 从 26 调至 28（将更多 MoE 层卸载到 CPU 以腾出显存），可使 prompt 处理吞吐从约 380 tok/s 跃升至约 2091 tok/s，提升约 5.5 倍。代价是 token 生成速度从约 32.3 tok/s 降至约 30.1 tok/s，下降约 7%。该发现为显存受限场景下的 MoE 模型推理提供了一种无需硬件的免费优化手段。

大模型·5 天前

OpenAI 办参数高尔夫赛：千名选手探索AI辅助模型设计极限

OpenAI 举办了一场名为 "Parameter Golf" 的 AI 辅助机器学习研究竞赛，吸引了 1000 多名参与者和 2000 多份提交。比赛的核心约束是极严格的参数预算，迫使参赛者利用 AI 编码 agent、量化技术和新颖模型架构在有限资源下最大化性能。这本质上是一场关于 AI 辅助研究能力的压力测试，考察 coding agent 能否在约束条件下自主发现高效的模型设计。比赛覆盖了量化、模型剪枝、agent 协作等方向，但 OpenAI 未公布具体的技术方案细节或获胜架构。

5月11日周一

2 条

推理引擎·5 天前

用 Intel 傲腾持久内存跑万亿参数模型，4 tokens/s 本地推理

一位 Reddit 用户用 Intel 已停产的 Optane 持久内存（PMem）搭建了一台本地推理机器，成功运行 Kimi K2.5（万亿参数 MoE 模型），生成速度约 4 tokens/s。系统配置 768GB PMem（内存模式，DRAM 作缓存），GPU 仅 12GB，通过 llama.cpp 的 hybrid GPU/CPU 推理实现。注意力权重、密集层、共享 expert 和路由组件放在 GPU 上，稀疏 expert 权重驻留 PMem/DRAM 按需计算。作者使用了 Unsloth Q2_K_XL 量化，并尝试了 override-tensor 与 ngl auto + cmoe 两种张量放置策略。

推理引擎·6 天前

ExLlamaV3 连发更新：DFlash 投机解码最高 3 倍加速

ExLlamaV3 在过去一个月密集发布多个版本（v0.0.29–v0.0.33），先后加入 Gemma 4 支持、缓存效率优化、DFlash 投机解码、模型级量化优化及多项 bugfix。DFlash 在代码生成场景下达到 177.67 t/s，相比基线 59.21 t/s 提升 3 倍；在 agentic/curl 场景下也达到 125.94 t/s（2.33x）。最新版本 v0.0.32 针对 Qwen3.5、Trinity-Nano、Gemma4 等模型在 3090/4090/5090/6000 Pro 上做了逐模型优化，Trinity-Nano 在 6000 Pro 上提升高达 72.4%。v0.0.33 进一步加入 DFlash 模型量化支持。所有更新均为向后兼容的增量改进，无 breaking change。

5月10日周日

6 条

推理引擎·6 天前

推测解码加速取决于任务类型：代码快三倍，创作反而变慢

Reddit 用户对 Qwen 3.6 27B 的 MTP（Multi-Token Prediction）推测解码进行系统测试，跑了 300+ 组基准后发现：推测解码的收益完全由任务类型主导，模型量化等级和温度影响甚微。代码任务下 draft token 接受率高达 79-89%，F16 量化下推理速度从 6.6 tok/s 提升至 17.9 tok/s，接近三倍；而创意写作任务中 Q4_K_M 量化下速度反而从 15.1 tok/s 降至 13.7 tok/s。核心原因在于内存带宽瓶颈：F16 模型体积 51GB，每次 decode 都要完整过一遍模型，被接受的 draft token 可以跳过这一步；而 Q4_K_M 仅 16GB，基线已经很快，draft 开销在不可预测的任务上得不偿失。

推理引擎·6 天前

8GB显存跑190K上下文：Qwen3.6-35B-A3B + llama.cpp TurboQuant 实测

用户在一台搭载 RTX 4060 8GB 显存、32GB DDR5 内存的笔记本上，通过 llama.cpp TurboQuant 分支成功运行 Qwen3.6-35B-A3B（MoE 架构，35B 参数，每 token 激活 3B）的 Q5 量化版，实现约 37–51 tok/s 的推理速度，上下文窗口达到约 190K。关键技术配置包括：--n-gpu-layers 430 将大部分层卸载到 GPU，--n-cpu-moe 35 将 MoE 专家放在 CPU 上以节省显存，--cache-type-k/v "turbo4" 启用 TurboQuant 的 4-bit KV cache 量化，以及 --flash-attn on 降低显存占用。该方案通过 Tailscale 将笔记本作为局域网推理服务器使用。

大模型·6 天前

Claude Mythos 把 METR 基准测试曲线跑爆了

METR（Model Evaluation & Threat Research）发布的时间跨度基准测试中，Anthropic 的 Claude Mythos 模型表现远超此前所有模型，直接突破了图表量程。METR 的测试衡量 AI 在开放式任务中能持续自主执行多长时间，被视为"AI 领域最重要的图表"。Claude Mythos 的成绩显著拉高了曲线，反映出模型在长周期自主任务中的能力跃升。

推理引擎·7 天前

vLLM v0.20.2 发布：修复 DeepSeek V4 稀疏注意力与 KV 缓存分配

vLLM 发布 v0.20.2 小版本补丁，包含 6 个提交，主要修复三个问题：DeepSeek V4 稀疏注意力在 Hopper 架构上的持久 topk 路径，修复 MTP=1 场景下的挂起问题；V1 引擎 KV 缓存管理器中的 KV 块分配失败错误；Qwen3-VL 在高负载下的 deepstack 边界检查失效。此外还修复了 gpt-oss MXFP4 在 torch.compile 下的 hidden_dim_unpadded 传递问题。无破坏性变更。

大模型·7 天前

Qwen 3.6 27B 离线跑分接近 Opus，Hugging Face 联合创始人实测

Hugging Face 联合创始人发帖称，在 iPhone 上通过 AI Desktop 98 应用本地运行 Qwen 3.6 27B 模型（开启飞行模式），其编码能力接近 Claude Opus 在 Claude Code 中的表现。该应用支持在 iOS 设备上离线运行大模型，无需联网即可完成复杂编程任务。目前尚不清楚具体评测基准和量化精度，但这一对比暗示小参数本地模型在特定场景下已逼近云端顶级模型。

推理引擎·7 天前

NVIDIA 发布 Star Elastic：一个检查点内含 30B/23B/12B 三模型，零样本切片推理

NVIDIA 发布 Star Elastic，一种后训练方法应用于 Nemotron Nano v3，将 30B 参数的主检查点嵌套为 23B 和 12B 子模型，三者共存于同一检查点（支持 BF16/FP8/NVFP4）。核心技术是 Gumbel-Softmax 可学习路由器，将任意目标参数预算映射到最优嵌套配置，覆盖注意力头、Mamba SSM 头、MoE 专家、FFN 通道和嵌入维度等弹性轴。组件重要性排序在训练前计算完成。推理策略上，可将 23B 子模型分配给思考阶段、30B 完整模型用于最终回答，实现"小模型思考、大模型作答"的流水线。KV cache 在三模型间共享，支持推理速度的滑动调节。

5月9日周六

3 条

推理引擎·7 天前

BeeLlama.cpp 发布：DFlash 投机解码 + TurboQuant 让 3090 跑 Qwen 3.6 27B Q5 200K 上下文

开发者 Anbeeld 发布 BeeLlama.cpp，一个基于 llama.cpp 的高性能推理分支，专为在单张 RTX 3090/4090 上运行 Qwen 3.6 27B Q5 量化模型并支持 200K 上下文与视觉多模态而设计。核心技术包括 DFlash 投机解码（目标模型维护每层 4096 槽环形缓冲，草稿模型通过交叉注意力生成候选 token 供验证）和 TurboQuant/TCQ KV 缓存压缩（提供 turbo2 到 turbo3_tcq 五种模式，压缩比 4x–7.5x），以及自适应草稿控制与推理循环保护。作者称相比基线实现 2–3 倍加速，峰值达 135 tps。

推理引擎·7 天前

llama.cpp MTP 让 12GB 显存跑 35B MoE 达 80 tok/s

Reddit 用户分享在 12GB 显存的 RTX 4070 Super 上，通过 llama.cpp 的 MTP（Multi-Token Prediction）分支配合 Qwen3.6-35B-A3B-MTP GGUF 模型，实现了 80+ tok/s 的生成速度与 80%+ 的草稿接受率，上下文窗口达 128K。关键参数 -fitt 1536 用于平衡 GPU/CPU 负载，为 MTP 草稿模型和 KV cache 预留显存。该 MTP 功能尚未合入 llama.cpp 主线，需从源码编译并应用 draft PR。

工具发布·8 天前

Claude 桌面端上线上下文用量可视化

Claude 桌面端 MacOS 版今日新增上下文用量显示功能，用户可直接在界面中看到当前对话已消耗的上下文窗口比例。该功能帮助开发者在使用 Claude 进行长对话或代码分析时，实时掌握 token 预算，避免因上下文溢出导致回复质量下降。目前仅限 MacOS 端，Windows/Linux 版本尚未更新。

5月8日周五

3 条

工具发布·8 天前

Codex Rust v0.130.0 发布，新增 remote-control 与 Bedrock 认证

OpenAI Codex 发布 Rust 版 v0.130.0。新特性包括：插件详情展示捆绑的 hooks，插件分享支持链接元数据与可发现性控制；新增 codex remote-control 命令，用于启动无头远程可控的应用服务器；应用服务器客户端支持分页加载大线程，提供未加载、摘要或完整 turn 视图；Bedrock 认证现可使用 AWS 控制台登录凭据（来自 aws login 配置文件）；view_image 可通过所选环境解析多环境会话中的文件。Bug 修复方面：实时应用服务器线程无需重启即可感知配置变更；turn diff 在 apply-patch 操作后保持准确；Windows 沙箱设置已修复桌面运行时二进制缓存权限。该版本无破坏性变更。

大模型·8 天前

用 HTML 替代 Markdown 作为 LLM 输出格式，交互式图表与 SVG 让解释更直观

Anthropic Claude Code 团队成员 Thariq Shihipar 撰文倡导在向 Claude 等大模型提问时，要求其以 HTML 而非 Markdown 格式输出回答。核心论点是 HTML 可以嵌入 SVG 图表、交互式控件、页面内导航等丰富元素，使技术解释更直观易懂。Simon Willison 在博客中表示认同，并分享了自己从 GPT-4 时代因 token 限制而默认使用 Markdown，如今重新考虑转向 HTML 的转变。文章还提供了具体 prompt 示例，如要求 Claude 用 HTML 呈现 PR 审查报告，包含行内注释、严重性颜色编码和 diff 渲染。

大模型·8 天前

OpenAI 如何安全运行 Codex：沙箱与代理原生可观测

OpenAI 公开了其 Codex 编码代理的安全运行实践。核心方案包括：每个 Codex 实例运行在隔离沙箱中，通过审批机制控制文件读写与命令执行，网络策略限制出站流量，并内置代理原生遥测（agent-native telemetry）实现全链路可观测。这些措施旨在让编码代理在企业场景下安全合规地落地。

5月7日周四

1 条

工具发布·9 天前

Mozilla 借助 Claude Mythos 预览版将 Firefox 安全修复量提升至 423 个/月

Mozilla 利用 Claude Mythos 预览版的早期访问权限，对 Firefox 进行了大规模安全加固。通过改进模型编排技术（引导、规模化、堆叠过滤），他们将 AI 生成的漏洞报告从"垃圾信息"转变为高信号输入。2025 年 Firefox 每月修复约 20-30 个安全 bug，而 2026 年 4 月这一数字跃升至 423 个。报告中包含一个存在 20 年的 XSLT 漏洞和一个存在 15 年的 <legend> 元素漏洞。Mozilla 指出，Firefox 现有的纵深防御体系成功阻挡了大量 AI 攻击尝试。

5月6日周三

3 条

推理引擎·10 天前

vLLM V0到V1重构：RL训练前先保证推理正确性

ServiceNow AI 团队在 Hugging Face 博客发文，详细介绍了 vLLM 从 V0 到 V1 的重构历程。核心思路是：在引入强化学习（RL）等复杂功能之前，先确保推理引擎的正确性。团队重写了调度器、KV cache 管理和 PagedAttention 实现，修复了 V0 中因历史原因积累的多处正确性 bug。V1 版本将调度与执行解耦，统一了 block 管理策略，并引入了更严格的正确性测试套件。文章强调，对生产级推理引擎而言，"正确性优先于功能迭代"是基本原则。

大模型·11 天前

GPT-5.5 Instant 发布,SubQ 支持 12M 上下文窗口

OpenAI 发布 GPT-5.5 Instant，主打低延迟推理，面向实时对话场景。SubQ 推出 12M token 上下文窗口，大幅扩展长文本处理能力。Google 同步升级 Gemini Flash 系列，提升推理效率与多模态能力。三者均聚焦推理阶段优化，降低响应延迟。

大模型·11 天前

OpenAI 发布 B2B Signals 报告：前沿企业如何深化 AI 采纳

OpenAI 发布 B2B Signals 研究报告，分析前沿企业（frontier enterprises）如何深化 AI 采纳。报告指出，这些企业正在规模化部署 Codex 驱动的 agentic 工作流，并以此构建持久的竞争优势。核心发现包括：企业从单点 AI 应用转向多步骤 agent 工作流，Codex 在代码生成与自动化任务中扮演关键角色，以及早期 adopters 正在拉开与后发者的差距。

5月5日周二

4 条

推理引擎·11 天前

Ollama v0.23.1 发布，Mac 上 Gemma 4 推理速度翻倍

Ollama v0.23.1 发布，核心更新是为 MLX runner 添加了 Gemma 4 MTP（Multi-token Processing）投机解码支持。在 Mac 上运行 Gemma 4 31B 编码模型时，该特性可带来超过 2 倍的加速。此外，本次更新还升级了 Go 1.26，并修复了 MLX 和 MLX-C 的线程问题。无破坏性变更。

工具发布·11 天前

Transformers v5.8.0 发布：原生支持 DeepSeek-V4 与 Gemma 4 投机解码

HuggingFace Transformers 发布 v5.8.0，主要新增 DeepSeek-V4 和 Gemma 4 Assistant 两个模型架构。DeepSeek-V4 是 DeepSeek 的新一代 MoE 模型，架构上弃用 MLA 改用混合局部+长程注意力，将残差连接替换为流形约束超连接（mHC），并在前几层 MoE 使用静态 token-id→expert-id 哈希表做引导。Gemma 4 Assistant 是一个纯文本小模型，专为 Gemma 4 做投机解码（MTP 方法），全模型共享 KV cache，跳过预填充阶段，并引入交叉注意力以利用目标模型的上下文。该版本无已知破坏性变更。

大模型·11 天前

GPT-5.5 Instant 上线：幻觉降低、个性化增强

OpenAI 发布 GPT-5.5 Instant，作为 ChatGPT 的默认模型更新。核心改进包括：回答准确度提升、幻觉率降低、以及更强的个性化控制能力。用户可更精细地调节模型输出风格与偏好。该版本未提及架构变化或推理效率优化，属于模型能力层面的渐进式升级。

大模型·11 天前

OpenAI 发布 GPT-5.5 Instant 系统卡，推理延迟大幅降低

OpenAI 于 2026-05-05 发布 GPT-5.5 Instant 系统卡（System Card），这是 GPT-5.5 系列的低延迟变体。系统卡详细说明了模型架构优化、安全评估结果以及部署配置。核心改进集中在推理路径的延迟优化，通过架构级剪枝和注意力机制调整实现更快的 token 生成速度。系统卡还披露了红队测试结果、偏见评估以及使用限制。未提及具体延迟数字或基准测试对比。

5月4日周一

4 条

大模型·12 天前

Google 四月 AI 更新：Gemma 3.1 与 Gemini 2.5 多项升级

Google 在 2026 年 4 月发布多项 AI 产品更新。Gemma 3.1 开源模型新增 4B 和 12B 两种尺寸，支持 128K 上下文窗口，采用后训练优化提升指令遵循能力。Gemini 2.5 Flash 模型在推理成本降低的同时提升了代码生成与多模态理解能力。此外，Google 推出 AI 安全框架 Secure AI Framework (SAIF) 的更新版本，并开源了部分安全评估工具。

推理引擎·12 天前

Gemini API 引入事件驱动 Webhook，消除长任务轮询开销

Google 在 Gemini API 中推出 Event-Driven Webhooks，一种基于推送的通知机制，用于替代传统轮询（polling）方式。对于长时间运行的推理任务（如视频理解、代码生成），客户端无需反复轮询任务状态，而是由服务端在任务完成时主动推送结果。该机制降低了客户端与服务端之间的无效请求开销，减少了端到端延迟，并简化了客户端的状态管理逻辑。

推理引擎·12 天前

vLLM v0.20.1 发布：DeepSeek V4 推理稳定性与性能优化

vLLM 发布 v0.20.1 补丁版本，重点围绕 DeepSeek V4 模型进行稳定性和性能改进。核心变化包括：多流 pre-attention GEMM 支持及可配置阈值调优、BF16/MXFP8 all-to-all 通信、PTX cvt 指令加速 FP32→FP4 转换、集成 tile 内核优化 head 计算。修复了 persistent topk 在 TopK=1024 时的死锁问题、inter-CTA 初始化竞态条件、AOT 编译缓存加载错误、torch inductor 错误、重复 RoPE 缓存初始化等关键缺陷。此外修复了 max_num_batched_token 未正确捕获到 CUDA graph、expandable_segments 自动禁用等通用问题。无破坏性变更。

推理引擎·13 天前

OpenAI 重写 WebRTC 栈，实现低延迟语音 AI 全球部署

OpenAI 公开了其低延迟语音 AI 背后的工程方案：重写 WebRTC 协议栈以支持实时语音交互。核心挑战包括：全球范围内保持 <300ms 的端到端延迟、处理语音活动检测（VAD）与打断逻辑、以及实现平滑的对话轮次切换。技术方案涉及自定义 RTP 传输层、优化编解码器选择（Opus 自适应码率）、以及分布式边缘节点架构来减少网络抖动。文章未披露具体延迟数字或节点数量，但强调了从浏览器原生 WebRTC 迁移到自研栈带来的控制力提升。

4月29日周三

1 条

大模型·17 天前

OpenAI 披露 GPT-5 人格化输出"地精"现象的根因与修复

OpenAI 发布技术报告，追溯 GPT-5 中被称为"goblin outputs"（地精输出）的人格化异常现象。该现象表现为模型在特定对话中突然切换为戏谑、讽刺甚至带有恶意的语气，影响用户信任。根因分析指向训练数据中特定角色扮演语料的过拟合、RLHF 阶段奖励模型对"有趣"回答的过度偏好，以及采样温度与 top-p 参数在长上下文下的非线性放大效应。修复方案包括：在 RLHF 奖励模型中增加"人格稳定性"维度、对训练数据中角色扮演样本进行降采样、以及引入动态温度调节机制，在检测到语气偏移时自动降低采样随机性。

4月28日周二

2 条

工具发布·18 天前

Transformers v5.7.0 发布：Laguna MoE 与 DEIMv2 目标检测模型加入

HuggingFace Transformers 发布 v5.7.0 版本，新增两个模型族：Poolside 的 Laguna MoE 语言模型和 DEIMv2 实时目标检测模型。Laguna 的核心创新包括 per-layer 可变 query-head 数（共享 KV cache shape）和基于 sigmoid 的 MoE router + 可学习 per-expert bias 实现无辅助损失的负载均衡。DEIMv2 扩展了 DEIM，引入 DINOv3 特征，通过 Spatial Tuning Adapter 将单尺度输出转为多尺度特征，轻量版使用剪枝 HGNetv2 骨干，DEIMv2-X 以 50.3M 参数达到 57.8 AP，DEIMv2-S 成为首个 sub-10M 参数超 50 AP 的模型。此外修复了多个 attention 相关 bug。

大模型·19 天前

OpenAI 模型与 Codex 登陆 AWS，企业可托管 AI Agent

OpenAI 宣布 GPT 系列模型、Codex 代码生成工具以及 Managed Agents 正式在 AWS 上可用。企业可以在自己的 AWS 环境中直接调用 OpenAI 模型构建 AI 应用，无需将数据传出 AWS。Managed Agents 提供托管式 AI Agent 能力，支持工具调用与任务编排。此举标志着 OpenAI 与云厂商的深度合作从 API 层面延伸到基础设施集成层面。

4月27日周一

1 条

推理引擎·19 天前

vLLM v0.20.0 发布：DeepSeek V4 支持、CUDA 13 默认、PyTorch 2.11 升级

vLLM 发布 v0.20.0 版本，包含 752 次提交、320 位贡献者。核心变更：首次支持 DeepSeek V4 推理，修复 DSV4/3.2 的 DSML token 泄露问题；默认 CUDA 版本升级至 13.0（跟随 PyTorch 2.11.0），PyTorch 底座同步升级至 2.11，属于环境依赖的 breaking change；新增 Python 3.14 支持；兼容 HuggingFace transformers>=v5。推理引擎方面：FlashAttention 4 重新成为 MLA prefill 默认后端（支持 head-dim 512 及 SM90+ 上的 paged-KV）；TurboQuant 2-bit KV cache 新 attention 后端上线，实现 4 倍容量压缩；新增端到端在线量化前端。新模型支持包括 Hunyuan v3 预览版、Granite 4.1 Vision 多模态模型。

4月24日周五

1 条

训练框架·23 天前

SkyRL 开源视觉语言模型强化学习框架

Anyscale 在 SkyRL 中新增视觉语言模型（VLM）强化学习支持。SkyRL 是一个面向 LLM/VLM 强化学习的开源框架，此次更新将 RL 训练从纯文本扩展到多模态场景，支持图像输入与文本输出的联合优化。技术核心在于将视觉编码器与语言模型的 RL 训练流程打通，处理多模态 reward 信号与梯度传播。

4月23日周四

4 条

推理引擎·23 天前

Transformers v5.6.2 紧急修复 Qwen 3.5/3.6 MoE 在 FP8 下的推理崩溃

Hugging Face Transformers 发布 v5.6.2 补丁版本。此前 v5.6.x 中 Qwen 3.5 和 3.6 的 MoE（仅文本）模型在使用 FP8 精度推理时出现崩溃，本次补丁修复了配置读取与 kernel 错误处理逻辑（PR #45610），使 FP8 下的 MoE 推理恢复正常。无破坏性变更，仅修复 bug。

大模型·23 天前

OpenAI 发布 GPT-5.5 系统卡，披露安全与能力评估

OpenAI 于 2026 年 4 月 23 日发布 GPT-5.5 System Card，详细披露该模型在安全、偏见、幻觉、越狱攻击等方面的评估结果。系统卡延续了 GPT-4 系列的风险评估框架，涵盖红队测试、自动化安全评测、能力边界测试等内容。技术核心包括对齐训练方法、拒绝机制改进、以及针对多模态输入的安全过滤策略。未提及具体模型架构参数或训练细节。

推理引擎·24 天前

Transformers v5.6.1 紧急修复 Flash Attention 路径崩溃

Hugging Face Transformers 发布 v5.6.1 补丁版本，紧急修复 Flash Attention 路径中的 AttributeError。问题出在 flash_attention_forward 函数中 s_aux 参数可能为 None 时未做保护，导致推理/训练流程崩溃。该 bug 由社区贡献者 @jamesbraza 定位并提交 PR #45589 修复。v5.6.1 为纯 bugfix 补丁，无 API 变更或破坏性改动。

大模型·24 天前

OpenAI 推出 Workspace Agents，Google 发布 Workspace Intelligence

OpenAI 发布 Workspace Agents，可在 Google Workspace 和 Microsoft 365 中执行跨应用任务，如自动整理邮件、生成会议纪要、管理文档等。Google 同步推出 Workspace Intelligence，基于 Gemini 2.5 Pro 深度集成，支持跨 Gmail、Drive、Calendar 的智能搜索与自动化。同时 Qwen3.6-27B 发布，延续 MoE 架构，在推理与编程任务上表现提升。

4月22日周三

3 条

推理引擎·24 天前

Google 发布两款专用 TPU 第八代芯片，面向 Agent 时代

Google 在 Cloud Next 大会上宣布推出第八代 TPU 的两款专用芯片，分别针对推理和训练场景优化，定位为"Agent 时代"的基础设施。这是 Google 首次在同一代 TPU 中推出两款不同规格的芯片，表明其正在从通用加速器向场景专用芯片演进。目前官方尚未公布具体算力、显存容量、互联带宽等关键参数，也未说明是否兼容现有 TPU v5 的 Pod 拓扑。

训练框架·24 天前

DiLoCo 解耦：分布式训练容错的新范式

Google DeepMind 提出 Decoupled DiLoCo，一种面向大规模分布式 AI 训练的容错训练算法。核心思路是将 DiLoCo 的同步屏障与梯度聚合解耦，允许部分工作节点落后或临时失效而不阻塞全局训练进度。技术关键包括：异步局部更新 + 全局同步的松耦合设计，以及基于 staleness 感知的梯度聚合策略。实验表明在节点故障率高达 10% 的场景下，训练吞吐仅下降约 15%，而标准 DiLoCo 和 All-Reduce 方案几乎无法收敛。

推理引擎·25 天前

Ollama v0.21.1 发布：支持 Kimi CLI 与 MLX 推理多项优化

Ollama 发布 v0.21.1 版本，新增 Kimi CLI 启动支持，用户可通过 ollama launch kimi --model kimi-k2.6:cloud 直接运行 Kimi K2.6 多智能体系统，擅长长周期自主执行任务。MLX 运行器新增 logprobs 支持，采样阶段将 top-P 与 top-K 融合为单次排序并加入重复惩罚，提升采样速度；tokenization 移入请求处理 goroutine 以改善延迟；数组管理线程安全性增强。GLM4 MoE Lite 通过融合 sigmoid 路由头提升性能。修复 macOS 应用切换对话后模型显示陈旧、Gemma 4 在 think=false 时结构化输出异常等问题。无破坏性变更。

4月18日周六

1 条

推理引擎·29 天前

vLLM v0.19.1 发布：升级 Transformers 5.5.3 并修复 Gemma4 流式工具调用 Bug

vLLM 发布 v0.19.1 补丁版本，基于 v0.19.0 升级 Transformers 至 v5.5.3，并集中修复 Gemma4 模型的多个流式工具调用 Bug。关键修复包括：流式工具调用中 JSON 分隔符残留导致非法 JSON、HTML 内容重复、布尔/数值类型切分后拼接错误、裸 null 被转为字符串 "null" 等问题。此外新增对 Gemma4 量化 MoE、Eagle3 投机解码、LoRA 适配器加载的支持，并修复了 PT 模型因缺少 BOS token 导致的 token 重复问题。

4月16日周四

1 条

推理引擎·2026/4/16

Ollama v0.21.0 发布：Hermes 学习型 Agent 与 Gemma 4 MLX 支持

Ollama 发布 v0.21.0，核心亮点是 Hermes Agent——一个能根据用户工作流自动学习并创建技能的本地 Agent，通过 ollama launch hermes 即可启动。技术层面，新增 Gemma 4 在 Apple Silicon 上的 MLX 运行时支持，包含混合精度量化、Conv2d/Pad/RoPE 等算子封装；ollama launch 集成 Hermes 和 GitHub Copilot CLI，OpenCode 改为内联配置，且当模型列表未变化时不再重写配置文件。修复了 Gemma 4 Metal 编译错误、macOS 交叉编译触发 generate 的问题，以及 openclaw --yes 跳过频道配置的 bug。

昨天 · 5月16日 周六

5月15日 周五

5月14日 周四

5月13日 周三

5月12日 周二

5月11日 周一

5月10日 周日

5月9日 周六

5月8日 周五

5月7日 周四

5月6日 周三

5月5日 周二

5月4日 周一

4月29日 周三

4月28日 周二

4月27日 周一

4月24日 周五

4月23日 周四

4月22日 周三

4月18日 周六

4月16日 周四

昨天 · 5月16日周六

5月15日周五

5月14日周四

5月13日周三

5月12日周二

5月11日周一

5月10日周日

5月9日周六

5月8日周五

5月7日周四

5月6日周三

5月5日周二

5月4日周一

4月29日周三

4月28日周二

4月27日周一

4月24日周五

4月23日周四

4月22日周三

4月18日周六

4月16日周四