昨天 · 5月16日 周六
3 条推理引擎·17 小时前
推理引擎·17 小时前
Strix Halo 实测:llama.cpp MTP 让 27B 模型生成速度翻倍
论文速递·1 天前
δ-mem 提出在线记忆机制,让 LLM 长上下文推理效率提升 3 倍
5月15日 周五
2 条5月14日 周四
2 条5月13日 周三
1 条5月12日 周二
2 条5月11日 周一
1 条推理引擎·6 天前
ExLlamaV3 连发更新:DFlash 投机解码最高 3 倍加速
5月10日 周日
4 条5月9日 周六
1 条工具发布·8 天前
Claude 桌面端上线上下文用量可视化
5月8日 周五
2 条5月6日 周三
2 条推理引擎·10 天前
vLLM V0到V1重构:RL训练前先保证推理正确性
大模型·11 天前
GPT-5.5 Instant 发布,SubQ 支持 12M 上下文窗口
5月5日 周二
1 条5月4日 周一
3 条大模型·12 天前
Google 四月 AI 更新:Gemma 3.1 与 Gemini 2.5 多项升级
推理引擎·12 天前
Gemini API 引入事件驱动 Webhook,消除长任务轮询开销
推理引擎·13 天前
OpenAI 重写 WebRTC 栈,实现低延迟语音 AI 全球部署
4月29日 周三
1 条大模型·17 天前
OpenAI 披露 GPT-5 人格化输出"地精"现象的根因与修复
4月28日 周二
1 条4月23日 周四
1 条4月22日 周三
2 条推理引擎·24 天前
Google 发布两款专用 TPU 第八代芯片,面向 Agent 时代
推理引擎·25 天前