昨天 · 5月16日 周六

1
论文速递·1 天前

δ-mem 提出在线记忆机制,让 LLM 长上下文推理效率提升 3 倍

5月15日 周五

2
推理引擎·1 天前

Orthrus 冻结主干网实现 7.8× 加速,输出分布与 Qwen3 完全一致

推理引擎·2 天前

本地实测 Qwen 3.6 MTP:35B MoE 模型 300K 上下文仅用 28GB VRAM

5月14日 周四

1
推理引擎·2 天前

vLLM 发布 TurboQuant 全面评测:FP8 仍是 KV Cache 量化最佳默认方案

5月10日 周日

3
推理引擎·6 天前

8GB显存跑190K上下文:Qwen3.6-35B-A3B + llama.cpp TurboQuant 实测

推理引擎·7 天前

vLLM v0.20.2 发布:修复 DeepSeek V4 稀疏注意力与 KV 缓存分配

推理引擎·7 天前

NVIDIA 发布 Star Elastic:一个检查点内含 30B/23B/12B 三模型,零样本切片推理

5月9日 周六

1
推理引擎·7 天前

llama.cpp MTP 让 12GB 显存跑 35B MoE 达 80 tok/s

5月6日 周三

1
推理引擎·10 天前

vLLM V0到V1重构:RL训练前先保证推理正确性

5月5日 周二

1
工具发布·11 天前

Transformers v5.8.0 发布:原生支持 DeepSeek-V4 与 Gemma 4 投机解码

5月4日 周一

1
大模型·12 天前

Google 四月 AI 更新:Gemma 3.1 与 Gemini 2.5 多项升级

4月27日 周一

1
推理引擎·19 天前

vLLM v0.20.0 发布:DeepSeek V4 支持、CUDA 13 默认、PyTorch 2.11 升级

4月16日 周四

1
推理引擎·2026/4/16

Ollama v0.21.0 发布:Hermes 学习型 Agent 与 Gemma 4 MLX 支持