推理引擎·更新于 2026/05/10 19:25
推测解码加速取决于任务类型:代码快三倍,创作反而变慢
Reddit 用户对 Qwen 3.6 27B 的 MTP(Multi-Token Prediction)推测解码进行系统测试,跑了 300+ 组基准后发现:推测解码的收益完全由任务类型主导,模型量化等级和温度影响甚微。代码任务下 draft token 接受率高达 79-89%,F16 量化下推理速度从 6.6 tok/s 提升至 17.9 tok/s,接近三倍;而创意写作任务中 Q4_K_M 量化下速度反而从 15.1 tok/s 降至 13.7 tok/s。核心原因在于内存带宽瓶颈:F16 模型体积 51GB,每次 decode 都要完整过一遍模型,被接受的 draft token 可以跳过这一步;而 Q4_K_M 仅 16GB,基线已经很快,draft 开销在不可预测的任务上得不偿失。
速读
推测解码在代码任务中接受率达79-89%且F16下快3倍,但创意写作Q4_K_M反而变慢,内存带宽是瓶颈
相关源 (1)
- r/LocalLLaMA · 2026/5/10 19:25:50https://www.reddit.com/r/LocalLLaMA/comments/1t9gcar/mtp_benchmark_results_the_nature_of_the/