推理引擎·更新于 2026/05/15 06:20
本地实测 Qwen 3.6 MTP:35B MoE 模型 300K 上下文仅用 28GB VRAM
Reddit 用户使用 unsloth 发布的 Qwen3.6-35B-A3B-UD-Q5_K_S(MTP 版)在本地进行多轮长上下文测试,构建 Pygame 迷宫游戏。在 32GB RDNA 4 显卡上,35B MoE 模型在 Q4_0 量化下达到 300K 上下文,VRAM 占用 28.3GB,仍有空间扩展到 400K。用户实测 MTP 版本在 27B 稠密模型上带来约 1.5 倍 tokens/s 加速,但 35B MoE 版本仅提升不到 10%。测试中 MoE 模型在 200K 附近出现稳定性问题,切换至 Q8_0 量化的 27B 模型后解决。MTP 推理需使用 llama.cpp 的 MTP 原型 Docker 镜像(haven oammo/llama:vulkan-server),后端为 Vulkan。
速读
Qwen 3.6 MTP 版在 32GB 显卡上跑 300K 上下文仅用 28GB VRAM
相关源 (1)
- r/LocalLLaMA · 2026/5/15 06:20:08https://www.reddit.com/r/LocalLLaMA/comments/1tdns1i/used_over_a_million_tokens_in_three_separate/