推理引擎·6 天前
用户在一台搭载 RTX 4060 8GB 显存、32GB DDR5 内存的笔记本上,通过 llama.cpp TurboQuant 分支成功运行 Qwen3.6-35B-A3B(MoE 架构,35B 参数,每 token 激活 3B)的 Q5 量化版,实现约 37–51 tok/s 的推理速度,上下文窗口达到约 190K。关键技术配置包括:--n-gpu-layers 430 将大部分层卸载到 GPU,--n-cpu-moe 35 将 MoE 专家放在 CPU 上以节省显存,--cache-type-k/v "turbo4" 启用 TurboQuant 的 4-bit KV cache 量化,以及 --flash-attn on 降低显存占用。该方案通过 Tailscale 将笔记本作为局域网推理服务器使用。
推理引擎·7 天前
vLLM 发布 v0.20.2 小版本补丁,包含 6 个提交,主要修复三个问题:DeepSeek V4 稀疏注意力在 Hopper 架构上的持久 topk 路径,修复 MTP=1 场景下的挂起问题;V1 引擎 KV 缓存管理器中的 KV 块分配失败错误;Qwen3-VL 在高负载下的 deepstack 边界检查失效。此外还修复了 gpt-oss MXFP4 在 torch.compile 下的 hidden_dim_unpadded 传递问题。无破坏性变更。
推理引擎·7 天前
NVIDIA 发布 Star Elastic,一种后训练方法应用于 Nemotron Nano v3,将 30B 参数的主检查点嵌套为 23B 和 12B 子模型,三者共存于同一检查点(支持 BF16/FP8/NVFP4)。核心技术是 Gumbel-Softmax 可学习路由器,将任意目标参数预算映射到最优嵌套配置,覆盖注意力头、Mamba SSM 头、MoE 专家、FFN 通道和嵌入维度等弹性轴。组件重要性排序在训练前计算完成。推理策略上,可将 23B 子模型分配给思考阶段、30B 完整模型用于最终回答,实现"小模型思考、大模型作答"的流水线。KV cache 在三模型间共享,支持推理速度的滑动调节。