昨天 · 5月16日 周六

3
大模型·14 小时前

本地 Qwen 3.6 量化版单文件编码任务直追前沿模型

推理引擎·17 小时前

Strix Halo 实测:llama.cpp MTP 让 27B 模型生成速度翻倍

大模型·1 天前

Qwen3.6-35B-A3B 登顶 Terminal-Bench 2.0,超越 Gemini 2.5 Pro

5月15日 周五

1
推理引擎·2 天前

本地实测 Qwen 3.6 MTP:35B MoE 模型 300K 上下文仅用 28GB VRAM

5月10日 周日

1
推理引擎·6 天前

推测解码加速取决于任务类型:代码快三倍,创作反而变慢

5月9日 周六

1
推理引擎·7 天前

llama.cpp MTP 让 12GB 显存跑 35B MoE 达 80 tok/s

4月23日 周四

2
推理引擎·23 天前

Transformers v5.6.2 紧急修复 Qwen 3.5/3.6 MoE 在 FP8 下的推理崩溃

大模型·24 天前

OpenAI 推出 Workspace Agents,Google 发布 Workspace Intelligence