InfoPie · AI · 大模型 · 数据库

5月11日周一

1 条

推理引擎·5 天前

用 Intel 傲腾持久内存跑万亿参数模型，4 tokens/s 本地推理

一位 Reddit 用户用 Intel 已停产的 Optane 持久内存（PMem）搭建了一台本地推理机器，成功运行 Kimi K2.5（万亿参数 MoE 模型），生成速度约 4 tokens/s。系统配置 768GB PMem（内存模式，DRAM 作缓存），GPU 仅 12GB，通过 llama.cpp 的 hybrid GPU/CPU 推理实现。注意力权重、密集层、共享 expert 和路由组件放在 GPU 上，稀疏 expert 权重驻留 PMem/DRAM 按需计算。作者使用了 Unsloth Q2_K_XL 量化，并尝试了 override-tensor 与 ngl auto + cmoe 两种张量放置策略。

5月11日 周一

用 Intel 傲腾持久内存跑万亿参数模型，4 tokens/s 本地推理

5月11日周一