昨天 · 5月16日 周六

1
大模型·1 天前

Qwen3.6-35B-A3B 登顶 Terminal-Bench 2.0,超越 Gemini 2.5 Pro

5月15日 周五

2
大模型·2 天前

Intern-S2-Preview:35B 科学多模态模型通过任务缩放逼近万亿参数性能

推理引擎·2 天前

本地实测 Qwen 3.6 MTP:35B MoE 模型 300K 上下文仅用 28GB VRAM

5月14日 周四

2
推理引擎·3 天前

llama.cpp b9142 发布:为 Adreno GPU 添加 Q5_0/Q5_1 MoE 支持

推理引擎·3 天前

llama.cpp b9140 修复 Adreno 上 MoE 预热崩溃

5月13日 周三

1
推理引擎·3 天前

Ovis2.6-80B-A3B:80B参数MoE多模态模型,推理仅激活3B

5月12日 周二

1
推理引擎·5 天前

调大 ubatch 让 llama.cpp MoE 模型预填提速 5.5 倍

5月11日 周一

1
推理引擎·5 天前

用 Intel 傲腾持久内存跑万亿参数模型,4 tokens/s 本地推理

5月10日 周日

3
推理引擎·6 天前

8GB显存跑190K上下文:Qwen3.6-35B-A3B + llama.cpp TurboQuant 实测

推理引擎·7 天前

vLLM v0.20.2 发布:修复 DeepSeek V4 稀疏注意力与 KV 缓存分配

推理引擎·7 天前

NVIDIA 发布 Star Elastic:一个检查点内含 30B/23B/12B 三模型,零样本切片推理

5月9日 周六

1
推理引擎·7 天前

llama.cpp MTP 让 12GB 显存跑 35B MoE 达 80 tok/s

5月5日 周二

1
工具发布·11 天前

Transformers v5.8.0 发布:原生支持 DeepSeek-V4 与 Gemma 4 投机解码

5月4日 周一

1
推理引擎·12 天前

vLLM v0.20.1 发布:DeepSeek V4 推理稳定性与性能优化

4月28日 周二

1
工具发布·18 天前

Transformers v5.7.0 发布:Laguna MoE 与 DEIMv2 目标检测模型加入

4月23日 周四

2
推理引擎·23 天前

Transformers v5.6.2 紧急修复 Qwen 3.5/3.6 MoE 在 FP8 下的推理崩溃

大模型·24 天前

OpenAI 推出 Workspace Agents,Google 发布 Workspace Intelligence

4月22日 周三

1
推理引擎·25 天前

Ollama v0.21.1 发布:支持 Kimi CLI 与 MLX 推理多项优化

4月18日 周六

1
推理引擎·29 天前

vLLM v0.19.1 发布:升级 Transformers 5.5.3 并修复 Gemma4 流式工具调用 Bug