昨天 · 5月16日 周六

2
推理引擎·17 小时前

llama.cpp b9180 支持 MTP 推测解码与 GDN 部分回滚

推理引擎·17 小时前

Strix Halo 实测:llama.cpp MTP 让 27B 模型生成速度翻倍

5月15日 周五

1
推理引擎·1 天前

Orthrus 冻结主干网实现 7.8× 加速,输出分布与 Qwen3 完全一致

5月10日 周日

1
推理引擎·6 天前

推测解码加速取决于任务类型:代码快三倍,创作反而变慢

5月9日 周六

1
推理引擎·7 天前

llama.cpp MTP 让 12GB 显存跑 35B MoE 达 80 tok/s

4月16日 周四

1
推理引擎·2026/4/16

Ollama v0.21.0 发布:Hermes 学习型 Agent 与 Gemma 4 MLX 支持