昨天 · 5月16日 周六

5
大模型·13 小时前

本地 Qwen 3.6 量化版单文件编码任务直追前沿模型

推理引擎·16 小时前

llama.cpp b9180 支持 MTP 推测解码与 GDN 部分回滚

推理引擎·16 小时前

Strix Halo 实测:llama.cpp MTP 让 27B 模型生成速度翻倍

论文速递·23 小时前

δ-mem 提出在线记忆机制,让 LLM 长上下文推理效率提升 3 倍

大模型·1 天前

Qwen3.6-35B-A3B 登顶 Terminal-Bench 2.0,超越 Gemini 2.5 Pro

5月15日 周五

6
推理引擎·1 天前

Orthrus 冻结主干网实现 7.8× 加速,输出分布与 Qwen3 完全一致

工具发布·1 天前

Equibles 开源 MCP 服务器,让本地 LLM 获取实时美国金融数据

推理引擎·1 天前

离线行李箱机器人:Jetson Orin NX 跑 Gemma 4,200ms 缓存 TTFT

大模型·1 天前

Intern-S2-Preview:35B 科学多模态模型通过任务缩放逼近万亿参数性能

大模型·1 天前

Anthropic 用 5 天让 Claude 自主攻破 macOS 安全防线

推理引擎·2 天前

本地实测 Qwen 3.6 MTP:35B MoE 模型 300K 上下文仅用 28GB VRAM

5月14日 周四

10
推理引擎·2 天前

vLLM 发布 TurboQuant 全面评测:FP8 仍是 KV Cache 量化最佳默认方案

推理引擎·2 天前

RTX 5000 PRO 48GB 实测:4400 tok/s 提示处理,vLLM 部署 Qwen3 27B 全精度缓存

大模型·2 天前

Anthropic 强制默认 Adaptive Thinking,固定推理预算选项被废弃

大模型·2 天前

Anthropic 推出 Claude 认证架构师考试

训练框架·2 天前

Anyscale 发布 Agent Skill 工具,强化 LLM 后训练阶段

向量库与RAG·3 天前

本地 LLM 做个人知识库:RAG 落地消费硬件的真实痛点

大模型·3 天前

开发者实测:Claude Code Opus 4.7 零错误完胜 GPT-5.5 Codex,但价格差距在缩小

推理引擎·3 天前

llama.cpp b9142 发布:为 Adreno GPU 添加 Q5_0/Q5_1 MoE 支持

推理引擎·3 天前

llama.cpp b9141 新增 vLLM 兼容的 continue_final_message 标志

推理引擎·3 天前

llama.cpp b9140 修复 Adreno 上 MoE 预热崩溃

5月13日 周三

4
大模型·3 天前

Anthropic 将 Claude --print 划入 SDK 计费,CLI 自动化方案遭堵

推理引擎·3 天前

AMD MI50 八卡跑 Qwen 3.6 27B,52.8 tps 推理吞吐实测

工具发布·3 天前

TextGen 从 Web UI 变身原生桌面应用,对标 LM Studio

推理引擎·3 天前

Ovis2.6-80B-A3B:80B参数MoE多模态模型,推理仅激活3B

5月12日 周二

5
推理引擎·4 天前

在 Game Boy Color 上跑 Transformer 语言模型

工具发布·4 天前

Claude Code 静默切换计费:.env 中的 API Key 会覆盖 Max 订阅

工具发布·4 天前

LLM 0.32a2 发布:支持 OpenAI 新版 Responses API 与推理 Token 显示

推理引擎·5 天前

调大 ubatch 让 llama.cpp MoE 模型预填提速 5.5 倍

大模型·5 天前

OpenAI 办参数高尔夫赛:千名选手探索AI辅助模型设计极限

5月11日 周一

2
推理引擎·5 天前

用 Intel 傲腾持久内存跑万亿参数模型,4 tokens/s 本地推理

推理引擎·6 天前

ExLlamaV3 连发更新:DFlash 投机解码最高 3 倍加速

5月10日 周日

6
推理引擎·6 天前

推测解码加速取决于任务类型:代码快三倍,创作反而变慢

推理引擎·6 天前

8GB显存跑190K上下文:Qwen3.6-35B-A3B + llama.cpp TurboQuant 实测

大模型·6 天前

Claude Mythos 把 METR 基准测试曲线跑爆了

推理引擎·7 天前

vLLM v0.20.2 发布:修复 DeepSeek V4 稀疏注意力与 KV 缓存分配

大模型·7 天前

Qwen 3.6 27B 离线跑分接近 Opus,Hugging Face 联合创始人实测

推理引擎·7 天前

NVIDIA 发布 Star Elastic:一个检查点内含 30B/23B/12B 三模型,零样本切片推理

5月9日 周六

3
推理引擎·7 天前

BeeLlama.cpp 发布:DFlash 投机解码 + TurboQuant 让 3090 跑 Qwen 3.6 27B Q5 200K 上下文

推理引擎·7 天前

llama.cpp MTP 让 12GB 显存跑 35B MoE 达 80 tok/s

工具发布·8 天前

Claude 桌面端上线上下文用量可视化

5月8日 周五

3
工具发布·8 天前

Codex Rust v0.130.0 发布,新增 remote-control 与 Bedrock 认证

大模型·8 天前

用 HTML 替代 Markdown 作为 LLM 输出格式,交互式图表与 SVG 让解释更直观

大模型·8 天前

OpenAI 如何安全运行 Codex:沙箱与代理原生可观测

5月7日 周四

1
工具发布·9 天前

Mozilla 借助 Claude Mythos 预览版将 Firefox 安全修复量提升至 423 个/月

5月6日 周三

3
推理引擎·10 天前

vLLM V0到V1重构:RL训练前先保证推理正确性

大模型·11 天前

GPT-5.5 Instant 发布,SubQ 支持 12M 上下文窗口

大模型·11 天前

OpenAI 发布 B2B Signals 报告:前沿企业如何深化 AI 采纳

5月5日 周二

4
推理引擎·11 天前

Ollama v0.23.1 发布,Mac 上 Gemma 4 推理速度翻倍

工具发布·11 天前

Transformers v5.8.0 发布:原生支持 DeepSeek-V4 与 Gemma 4 投机解码

大模型·11 天前

GPT-5.5 Instant 上线:幻觉降低、个性化增强

大模型·11 天前

OpenAI 发布 GPT-5.5 Instant 系统卡,推理延迟大幅降低

5月4日 周一

4
大模型·12 天前

Google 四月 AI 更新:Gemma 3.1 与 Gemini 2.5 多项升级

推理引擎·12 天前

Gemini API 引入事件驱动 Webhook,消除长任务轮询开销

推理引擎·12 天前

vLLM v0.20.1 发布:DeepSeek V4 推理稳定性与性能优化

推理引擎·13 天前

OpenAI 重写 WebRTC 栈,实现低延迟语音 AI 全球部署

4月29日 周三

1
大模型·17 天前

OpenAI 披露 GPT-5 人格化输出"地精"现象的根因与修复

4月28日 周二

2
工具发布·18 天前

Transformers v5.7.0 发布:Laguna MoE 与 DEIMv2 目标检测模型加入

大模型·19 天前

OpenAI 模型与 Codex 登陆 AWS,企业可托管 AI Agent

4月27日 周一

1
推理引擎·19 天前

vLLM v0.20.0 发布:DeepSeek V4 支持、CUDA 13 默认、PyTorch 2.11 升级

4月24日 周五

1
训练框架·23 天前

SkyRL 开源视觉语言模型强化学习框架

4月23日 周四

4
推理引擎·23 天前

Transformers v5.6.2 紧急修复 Qwen 3.5/3.6 MoE 在 FP8 下的推理崩溃

大模型·23 天前

OpenAI 发布 GPT-5.5 系统卡,披露安全与能力评估

推理引擎·24 天前

Transformers v5.6.1 紧急修复 Flash Attention 路径崩溃

大模型·24 天前

OpenAI 推出 Workspace Agents,Google 发布 Workspace Intelligence

4月22日 周三

3
推理引擎·24 天前

Google 发布两款专用 TPU 第八代芯片,面向 Agent 时代

训练框架·24 天前

DiLoCo 解耦:分布式训练容错的新范式

推理引擎·25 天前

Ollama v0.21.1 发布:支持 Kimi CLI 与 MLX 推理多项优化

4月18日 周六

1
推理引擎·29 天前

vLLM v0.19.1 发布:升级 Transformers 5.5.3 并修复 Gemma4 流式工具调用 Bug

4月16日 周四

1
推理引擎·2026/4/16

Ollama v0.21.0 发布:Hermes 学习型 Agent 与 Gemma 4 MLX 支持