推理引擎·5 天前
用 Intel 傲腾持久内存跑万亿参数模型,4 tokens/s 本地推理
一位 Reddit 用户用 Intel 已停产的 Optane 持久内存(PMem)搭建了一台本地推理机器,成功运行 Kimi K2.5(万亿参数 MoE 模型),生成速度约 4 tokens/s。系统配置 768GB PMem(内存模式,DRAM 作缓存),GPU 仅 12GB,通过 llama.cpp 的 hybrid GPU/CPU 推理实现。注意力权重、密集层、共享 expert 和路由组件放在 GPU 上,稀疏 expert 权重驻留 PMem/DRAM 按需计算。作者使用了 Unsloth Q2_K_XL 量化,并尝试了 override-tensor 与 ngl auto + cmoe 两种张量放置策略。