推理引擎·更新于 2026/05/10 18:24
8GB显存跑190K上下文:Qwen3.6-35B-A3B + llama.cpp TurboQuant 实测
用户在一台搭载 RTX 4060 8GB 显存、32GB DDR5 内存的笔记本上,通过 llama.cpp TurboQuant 分支成功运行 Qwen3.6-35B-A3B(MoE 架构,35B 参数,每 token 激活 3B)的 Q5 量化版,实现约 37–51 tok/s 的推理速度,上下文窗口达到约 190K。关键技术配置包括:--n-gpu-layers 430 将大部分层卸载到 GPU,--n-cpu-moe 35 将 MoE 专家放在 CPU 上以节省显存,--cache-type-k/v "turbo4" 启用 TurboQuant 的 4-bit KV cache 量化,以及 --flash-attn on 降低显存占用。该方案通过 Tailscale 将笔记本作为局域网推理服务器使用。
速读
RTX 4060 8GB显存配合32GB内存,用llama.cpp TurboQuant跑Q5量化的Qwen3.6-35B-A3B,实现约190K上下文和37-51 tok/s
相关源 (1)
- r/LocalLLaMA · 2026/5/10 18:24:29https://www.reddit.com/r/LocalLLaMA/comments/1t9eo83/running_qwen36_35b_a3b_on_8gb_vram_and_32gb_ram/