推理引擎·更新于 2026/05/11 19:54

用 Intel 傲腾持久内存跑万亿参数模型，4 tokens/s 本地推理

Optane PMem MoE llama.cpp Kimi K2.5 CPU/GPU 混合推理

一位 Reddit 用户用 Intel 已停产的 Optane 持久内存（PMem）搭建了一台本地推理机器，成功运行 Kimi K2.5（万亿参数 MoE 模型），生成速度约 4 tokens/s。系统配置 768GB PMem（内存模式，DRAM 作缓存），GPU 仅 12GB，通过 llama.cpp 的 hybrid GPU/CPU 推理实现。注意力权重、密集层、共享 expert 和路由组件放在 GPU 上，稀疏 expert 权重驻留 PMem/DRAM 按需计算。作者使用了 Unsloth Q2_K_XL 量化，并尝试了 override-tensor 与 ngl auto + cmoe 两种张量放置策略。

速读

用 768GB Intel 傲腾持久内存配合 12GB GPU 和 llama.cpp，以 4 tokens/s 速度本地运行万亿参数 Kimi K2.5 Q2_K_XL 量化 MoE 模型

用 Intel 傲腾持久内存跑万亿参数模型，4 tokens/s 本地推理

相关源 (1)