推理引擎·更新于 2026/05/13 19:08

AMD MI50 八卡跑 Qwen 3.6 27B，52.8 tps 推理吞吐实测

社区用户在一台 8×AMD MI50（2018 年发布，gfx906 架构）的机器上，用 vLLM 分支 v0.20.1 + ROCm 7.2.1 跑 Qwen3.6-27B 全精度模型（无量化、无 MTP、无 DFlash），测得 TG 52.8 tokens/s、PP 1569 tokens/s（15K prompt）。TP=8 时模型刚好装下，TP=2 也能跑约 34 tps。作者认为该配置已可用于 Claude Code 或 Hermes 等 agent 场景，并指出通过 PCIe switch 降延迟、优化 ROCm 上的 DFlash/MTP 仍有提升空间。

速读

8×MI50跑Qwen3.6-27B达52.8 tps推理吞吐，vLLM v0.20.1加ROCm 7.2.1全精度float16

AMD MI50 八卡跑 Qwen 3.6 27B，52.8 tps 推理吞吐实测

相关源 (1)