InfoPie · AI · 大模型 · 数据库

5月14日周四

2 条

推理引擎·2 天前

vLLM 发布 TurboQuant 全面评测：FP8 仍是 KV Cache 量化最佳默认方案

vLLM 官方博客对 TurboQuant 系列 KV Cache 量化方法进行了首次全面评测。核心结论：FP8（--kv-cache-dtype fp8）依然是生产环境的最佳默认选择，提供 2 倍 KV Cache 容量且精度损失可忽略，在内存受限场景下性能显著优于 BF16。TurboQuant k8v4 相比 FP8 无明显优势，仅将容量提升至 2.4 倍但带来吞吐和延迟的持续下降。4bit-nc 变体在边缘部署等内存极度受限场景下有一定实用价值，但需付出精度、延迟和吞吐的折中。k3v4-nc 和 3bit-nc 在推理和超长上下文任务上精度下降明显，同时严重劣化延迟和吞吐，不适合生产部署。

推理引擎·3 天前

llama.cpp b9141 新增 vLLM 兼容的 continue_final_message 标志

llama.cpp 发布 b9141 版本，核心变化是 server 和 webui 端新增 continue_final_message 标志，用于兼容 vLLM 和 transformers API。该标志与 add_generation_prompt false 配合时，会触发已有的 prefill_assistant 代码路径，实现对话续写功能；与 add_generation_prompt true 互斥，违反时返回 HTTP 400。WebUI 的 Continue 按钮已接入此标志。本次发布不涉及底层推理逻辑改动，纯 API 对齐，为后续 per-template prefill 改造铺路。

5月10日周日

1 条

推理引擎·7 天前

vLLM v0.20.2 发布：修复 DeepSeek V4 稀疏注意力与 KV 缓存分配

vLLM 发布 v0.20.2 小版本补丁，包含 6 个提交，主要修复三个问题：DeepSeek V4 稀疏注意力在 Hopper 架构上的持久 topk 路径，修复 MTP=1 场景下的挂起问题；V1 引擎 KV 缓存管理器中的 KV 块分配失败错误；Qwen3-VL 在高负载下的 deepstack 边界检查失效。此外还修复了 gpt-oss MXFP4 在 torch.compile 下的 hidden_dim_unpadded 传递问题。无破坏性变更。

5月6日周三

1 条

推理引擎·10 天前

vLLM V0到V1重构：RL训练前先保证推理正确性

ServiceNow AI 团队在 Hugging Face 博客发文，详细介绍了 vLLM 从 V0 到 V1 的重构历程。核心思路是：在引入强化学习（RL）等复杂功能之前，先确保推理引擎的正确性。团队重写了调度器、KV cache 管理和 PagedAttention 实现，修复了 V0 中因历史原因积累的多处正确性 bug。V1 版本将调度与执行解耦，统一了 block 管理策略，并引入了更严格的正确性测试套件。文章强调，对生产级推理引擎而言，"正确性优先于功能迭代"是基本原则。

5月4日周一

1 条

推理引擎·12 天前

vLLM v0.20.1 发布：DeepSeek V4 推理稳定性与性能优化

vLLM 发布 v0.20.1 补丁版本，重点围绕 DeepSeek V4 模型进行稳定性和性能改进。核心变化包括：多流 pre-attention GEMM 支持及可配置阈值调优、BF16/MXFP8 all-to-all 通信、PTX cvt 指令加速 FP32→FP4 转换、集成 tile 内核优化 head 计算。修复了 persistent topk 在 TopK=1024 时的死锁问题、inter-CTA 初始化竞态条件、AOT 编译缓存加载错误、torch inductor 错误、重复 RoPE 缓存初始化等关键缺陷。此外修复了 max_num_batched_token 未正确捕获到 CUDA graph、expandable_segments 自动禁用等通用问题。无破坏性变更。

4月27日周一

1 条

推理引擎·19 天前

vLLM v0.20.0 发布：DeepSeek V4 支持、CUDA 13 默认、PyTorch 2.11 升级

vLLM 发布 v0.20.0 版本，包含 752 次提交、320 位贡献者。核心变更：首次支持 DeepSeek V4 推理，修复 DSV4/3.2 的 DSML token 泄露问题；默认 CUDA 版本升级至 13.0（跟随 PyTorch 2.11.0），PyTorch 底座同步升级至 2.11，属于环境依赖的 breaking change；新增 Python 3.14 支持；兼容 HuggingFace transformers>=v5。推理引擎方面：FlashAttention 4 重新成为 MLA prefill 默认后端（支持 head-dim 512 及 SM90+ 上的 paged-KV）；TurboQuant 2-bit KV cache 新 attention 后端上线，实现 4 倍容量压缩；新增端到端在线量化前端。新模型支持包括 Hunyuan v3 预览版、Granite 4.1 Vision 多模态模型。

4月18日周六

1 条

推理引擎·29 天前

vLLM v0.19.1 发布：升级 Transformers 5.5.3 并修复 Gemma4 流式工具调用 Bug

vLLM 发布 v0.19.1 补丁版本，基于 v0.19.0 升级 Transformers 至 v5.5.3，并集中修复 Gemma4 模型的多个流式工具调用 Bug。关键修复包括：流式工具调用中 JSON 分隔符残留导致非法 JSON、HTML 内容重复、布尔/数值类型切分后拼接错误、裸 null 被转为字符串 "null" 等问题。此外新增对 Gemma4 量化 MoE、Eagle3 投机解码、LoRA 适配器加载的支持，并修复了 PT 模型因缺少 BOS token 导致的 token 重复问题。

4月16日周四

1 条

推理引擎·2026/4/16

Ollama v0.21.0 发布：Hermes 学习型 Agent 与 Gemma 4 MLX 支持

Ollama 发布 v0.21.0，核心亮点是 Hermes Agent——一个能根据用户工作流自动学习并创建技能的本地 Agent，通过 ollama launch hermes 即可启动。技术层面，新增 Gemma 4 在 Apple Silicon 上的 MLX 运行时支持，包含混合精度量化、Conv2d/Pad/RoPE 等算子封装；ollama launch 集成 Hermes 和 GitHub Copilot CLI，OpenCode 改为内联配置，且当模型列表未变化时不再重写配置文件。修复了 Gemma 4 Metal 编译错误、macOS 交叉编译触发 generate 的问题，以及 openclaw --yes 跳过频道配置的 bug。

5月14日 周四

5月10日 周日

5月6日 周三

5月4日 周一

4月27日 周一

4月18日 周六