← 返回信息流
推理引擎·更新于 2026/05/11 19:54

用 Intel 傲腾持久内存跑万亿参数模型,4 tokens/s 本地推理

一位 Reddit 用户用 Intel 已停产的 Optane 持久内存(PMem)搭建了一台本地推理机器,成功运行 Kimi K2.5(万亿参数 MoE 模型),生成速度约 4 tokens/s。系统配置 768GB PMem(内存模式,DRAM 作缓存),GPU 仅 12GB,通过 llama.cpp 的 hybrid GPU/CPU 推理实现。注意力权重、密集层、共享 expert 和路由组件放在 GPU 上,稀疏 expert 权重驻留 PMem/DRAM 按需计算。作者使用了 Unsloth Q2_K_XL 量化,并尝试了 override-tensor 与 ngl auto + cmoe 两种张量放置策略。

速读

用 768GB Intel 傲腾持久内存配合 12GB GPU 和 llama.cpp,以 4 tokens/s 速度本地运行万亿参数 Kimi K2.5 Q2_K_XL 量化 MoE 模型

相关源 (1)