5月14日 周四

2
推理引擎·2 天前

vLLM 发布 TurboQuant 全面评测:FP8 仍是 KV Cache 量化最佳默认方案

推理引擎·3 天前

llama.cpp b9141 新增 vLLM 兼容的 continue_final_message 标志

5月10日 周日

1
推理引擎·7 天前

vLLM v0.20.2 发布:修复 DeepSeek V4 稀疏注意力与 KV 缓存分配

5月6日 周三

1
推理引擎·10 天前

vLLM V0到V1重构:RL训练前先保证推理正确性

5月4日 周一

1
推理引擎·12 天前

vLLM v0.20.1 发布:DeepSeek V4 推理稳定性与性能优化

4月27日 周一

1
推理引擎·19 天前

vLLM v0.20.0 发布:DeepSeek V4 支持、CUDA 13 默认、PyTorch 2.11 升级

4月18日 周六

1
推理引擎·29 天前

vLLM v0.19.1 发布:升级 Transformers 5.5.3 并修复 Gemma4 流式工具调用 Bug

4月16日 周四

1
推理引擎·2026/4/16

Ollama v0.21.0 发布:Hermes 学习型 Agent 与 Gemma 4 MLX 支持