昨天 · 5月16日 周六

3
大模型·14 小时前

本地 Qwen 3.6 量化版单文件编码任务直追前沿模型

推理引擎·17 小时前

llama.cpp b9180 支持 MTP 推测解码与 GDN 部分回滚

推理引擎·17 小时前

Strix Halo 实测:llama.cpp MTP 让 27B 模型生成速度翻倍

5月15日 周五

1
推理引擎·2 天前

本地实测 Qwen 3.6 MTP:35B MoE 模型 300K 上下文仅用 28GB VRAM

5月14日 周四

3
推理引擎·3 天前

llama.cpp b9142 发布:为 Adreno GPU 添加 Q5_0/Q5_1 MoE 支持

推理引擎·3 天前

llama.cpp b9141 新增 vLLM 兼容的 continue_final_message 标志

推理引擎·3 天前

llama.cpp b9140 修复 Adreno 上 MoE 预热崩溃

5月13日 周三

1
工具发布·3 天前

TextGen 从 Web UI 变身原生桌面应用,对标 LM Studio

5月12日 周二

1
推理引擎·5 天前

调大 ubatch 让 llama.cpp MoE 模型预填提速 5.5 倍

5月11日 周一

1
推理引擎·5 天前

用 Intel 傲腾持久内存跑万亿参数模型,4 tokens/s 本地推理

5月10日 周日

3
推理引擎·6 天前

推测解码加速取决于任务类型:代码快三倍,创作反而变慢

推理引擎·6 天前

8GB显存跑190K上下文:Qwen3.6-35B-A3B + llama.cpp TurboQuant 实测

大模型·7 天前

Qwen 3.6 27B 离线跑分接近 Opus,Hugging Face 联合创始人实测

5月9日 周六

1
推理引擎·7 天前

llama.cpp MTP 让 12GB 显存跑 35B MoE 达 80 tok/s