昨天 · 5月16日 周六

3
推理引擎·17 小时前

llama.cpp b9180 支持 MTP 推测解码与 GDN 部分回滚

推理引擎·17 小时前

Strix Halo 实测:llama.cpp MTP 让 27B 模型生成速度翻倍

论文速递·1 天前

δ-mem 提出在线记忆机制,让 LLM 长上下文推理效率提升 3 倍

5月15日 周五

2
大模型·2 天前

Intern-S2-Preview:35B 科学多模态模型通过任务缩放逼近万亿参数性能

推理引擎·2 天前

本地实测 Qwen 3.6 MTP:35B MoE 模型 300K 上下文仅用 28GB VRAM

5月14日 周四

2
大模型·2 天前

Anthropic 强制默认 Adaptive Thinking,固定推理预算选项被废弃

推理引擎·3 天前

llama.cpp b9141 新增 vLLM 兼容的 continue_final_message 标志

5月13日 周三

1
推理引擎·3 天前

Ovis2.6-80B-A3B:80B参数MoE多模态模型,推理仅激活3B

5月12日 周二

2
工具发布·4 天前

LLM 0.32a2 发布:支持 OpenAI 新版 Responses API 与推理 Token 显示

推理引擎·5 天前

调大 ubatch 让 llama.cpp MoE 模型预填提速 5.5 倍

5月11日 周一

1
推理引擎·6 天前

ExLlamaV3 连发更新:DFlash 投机解码最高 3 倍加速

5月10日 周日

4
推理引擎·6 天前

推测解码加速取决于任务类型:代码快三倍,创作反而变慢

推理引擎·6 天前

8GB显存跑190K上下文:Qwen3.6-35B-A3B + llama.cpp TurboQuant 实测

大模型·6 天前

Claude Mythos 把 METR 基准测试曲线跑爆了

大模型·7 天前

Qwen 3.6 27B 离线跑分接近 Opus,Hugging Face 联合创始人实测

5月9日 周六

1
工具发布·8 天前

Claude 桌面端上线上下文用量可视化

5月8日 周五

2
工具发布·8 天前

Codex Rust v0.130.0 发布,新增 remote-control 与 Bedrock 认证

大模型·8 天前

用 HTML 替代 Markdown 作为 LLM 输出格式,交互式图表与 SVG 让解释更直观

5月6日 周三

2
推理引擎·10 天前

vLLM V0到V1重构:RL训练前先保证推理正确性

大模型·11 天前

GPT-5.5 Instant 发布,SubQ 支持 12M 上下文窗口

5月5日 周二

1
大模型·12 天前

OpenAI 发布 GPT-5.5 Instant 系统卡,推理延迟大幅降低

5月4日 周一

3
大模型·12 天前

Google 四月 AI 更新:Gemma 3.1 与 Gemini 2.5 多项升级

推理引擎·12 天前

Gemini API 引入事件驱动 Webhook,消除长任务轮询开销

推理引擎·13 天前

OpenAI 重写 WebRTC 栈,实现低延迟语音 AI 全球部署

4月29日 周三

1
大模型·17 天前

OpenAI 披露 GPT-5 人格化输出"地精"现象的根因与修复

4月28日 周二

1
大模型·19 天前

OpenAI 模型与 Codex 登陆 AWS,企业可托管 AI Agent

4月23日 周四

1
推理引擎·23 天前

Transformers v5.6.2 紧急修复 Qwen 3.5/3.6 MoE 在 FP8 下的推理崩溃

4月22日 周三

2
推理引擎·24 天前

Google 发布两款专用 TPU 第八代芯片,面向 Agent 时代

推理引擎·25 天前

Ollama v0.21.1 发布:支持 Kimi CLI 与 MLX 推理多项优化

4月18日 周六

1
推理引擎·29 天前

vLLM v0.19.1 发布:升级 Transformers 5.5.3 并修复 Gemma4 流式工具调用 Bug