推理引擎·更新于 2026/05/10 19:25

推测解码加速取决于任务类型：代码快三倍，创作反而变慢

Reddit 用户对 Qwen 3.6 27B 的 MTP（Multi-Token Prediction）推测解码进行系统测试，跑了 300+ 组基准后发现：推测解码的收益完全由任务类型主导，模型量化等级和温度影响甚微。代码任务下 draft token 接受率高达 79-89%，F16 量化下推理速度从 6.6 tok/s 提升至 17.9 tok/s，接近三倍；而创意写作任务中 Q4_K_M 量化下速度反而从 15.1 tok/s 降至 13.7 tok/s。核心原因在于内存带宽瓶颈：F16 模型体积 51GB，每次 decode 都要完整过一遍模型，被接受的 draft token 可以跳过这一步；而 Q4_K_M 仅 16GB，基线已经很快，draft 开销在不可预测的任务上得不偿失。

速读

推测解码在代码任务中接受率达79-89%且F16下快3倍，但创意写作Q4_K_M反而变慢，内存带宽是瓶颈

推测解码加速取决于任务类型：代码快三倍，创作反而变慢

相关源 (1)