← 返回信息流
推理引擎·更新于 2026/05/13 19:08

AMD MI50 八卡跑 Qwen 3.6 27B,52.8 tps 推理吞吐实测

社区用户在一台 8×AMD MI50(2018 年发布,gfx906 架构)的机器上,用 vLLM 分支 v0.20.1 + ROCm 7.2.1 跑 Qwen3.6-27B 全精度模型(无量化、无 MTP、无 DFlash),测得 TG 52.8 tokens/s、PP 1569 tokens/s(15K prompt)。TP=8 时模型刚好装下,TP=2 也能跑约 34 tps。作者认为该配置已可用于 Claude Code 或 Hermes 等 agent 场景,并指出通过 PCIe switch 降延迟、优化 ROCm 上的 DFlash/MTP 仍有提升空间。

速读

8×MI50跑Qwen3.6-27B达52.8 tps推理吞吐,vLLM v0.20.1加ROCm 7.2.1全精度float16

相关源 (1)