← 返回信息流
推理引擎·更新于 2026/05/14 17:28

RTX 5000 PRO 48GB 实测:4400 tok/s 提示处理,vLLM 部署 Qwen3 27B 全精度缓存

一位零 PC 组装经验的用户以 $4300 购入 RTX 5000 PRO 48GB,总装机成本 $5600,成功部署 Qwen3.6-27B-FP8 模型并启用全精度 KV 缓存。实测提示处理(PP)速度达 4400 tok/s,文本生成(TG)速度 50-80 tok/s。用户全程借助 Claude Code 完成 Linux 环境配置与 vLLM 调优,消耗了每周 20 次 Claude Code Max 限额的 50%。该卡在 48GB 显存下可支撑 200K 上下文窗口的 BF16 KV 缓存,性能超出预期。

速读

花4300美元购入的RTX 5000 PRO 48GB实测以4400 tok/s提示处理及50-80 tok/s生成速度部署Qwen3.6-27B-FP8

相关源 (1)