InfoPie · AI · 大模型 · 数据库

昨天 · 5月16日周六

1 条

论文速递·1 天前

δ-mem 提出在线记忆机制，让 LLM 长上下文推理效率提升 3 倍

大模型在处理超长上下文时，KV cache 随序列长度线性增长，导致推理延迟和显存开销急剧上升。δ-mem 提出一种在线记忆机制，将历史上下文压缩为可更新的记忆状态，仅在需要时从记忆中检索相关信息，从而避免全量 KV cache 的存储与计算。实验表明，在 128K 上下文长度下，δ-mem 将推理延迟降低约 3 倍，显存占用减少 60% 以上，同时保持与全注意力基线相当的任务准确率。

5月15日周五

1 条

大模型·2 天前

Intern-S2-Preview：35B 科学多模态模型通过任务缩放逼近万亿参数性能

上海 AI Lab 发布 Intern-S2-Preview，一个 35B 参数的科学多模态基础模型。不同于传统参数和数据缩放，该模型探索"任务缩放"——通过增加科学任务的难度、多样性和覆盖度来解锁模型能力。基于 Qwen3.5 继续预训练，采用从预训练到强化学习的全链条训练管线，在多个核心专业科学任务上达到与万亿参数级 Intern-S1-Pro 相当的性能。技术亮点包括：RL 阶段引入共享权重 MTP（Multi-Token Prediction）配合 KL 损失，减少训练与推理行为不匹配，显著提升 MTP 接受率和 token 生成速度；同时采用 CoT 压缩技术缩短推理响应长度。该模型也是首个同时具备材料晶体结构生成能力和强通用能力的开源模型。

5月12日周二

1 条

大模型·5 天前

OpenAI 办参数高尔夫赛：千名选手探索AI辅助模型设计极限

OpenAI 举办了一场名为 "Parameter Golf" 的 AI 辅助机器学习研究竞赛，吸引了 1000 多名参与者和 2000 多份提交。比赛的核心约束是极严格的参数预算，迫使参赛者利用 AI 编码 agent、量化技术和新颖模型架构在有限资源下最大化性能。这本质上是一场关于 AI 辅助研究能力的压力测试，考察 coding agent 能否在约束条件下自主发现高效的模型设计。比赛覆盖了量化、模型剪枝、agent 协作等方向，但 OpenAI 未公布具体的技术方案细节或获胜架构。

5月5日周二

3 条

工具发布·11 天前

Transformers v5.8.0 发布：原生支持 DeepSeek-V4 与 Gemma 4 投机解码

HuggingFace Transformers 发布 v5.8.0，主要新增 DeepSeek-V4 和 Gemma 4 Assistant 两个模型架构。DeepSeek-V4 是 DeepSeek 的新一代 MoE 模型，架构上弃用 MLA 改用混合局部+长程注意力，将残差连接替换为流形约束超连接（mHC），并在前几层 MoE 使用静态 token-id→expert-id 哈希表做引导。Gemma 4 Assistant 是一个纯文本小模型，专为 Gemma 4 做投机解码（MTP 方法），全模型共享 KV cache，跳过预填充阶段，并引入交叉注意力以利用目标模型的上下文。该版本无已知破坏性变更。

大模型·12 天前

GPT-5.5 Instant 上线：幻觉降低、个性化增强

OpenAI 发布 GPT-5.5 Instant，作为 ChatGPT 的默认模型更新。核心改进包括：回答准确度提升、幻觉率降低、以及更强的个性化控制能力。用户可更精细地调节模型输出风格与偏好。该版本未提及架构变化或推理效率优化，属于模型能力层面的渐进式升级。

大模型·12 天前

OpenAI 发布 GPT-5.5 Instant 系统卡，推理延迟大幅降低

OpenAI 于 2026-05-05 发布 GPT-5.5 Instant 系统卡（System Card），这是 GPT-5.5 系列的低延迟变体。系统卡详细说明了模型架构优化、安全评估结果以及部署配置。核心改进集中在推理路径的延迟优化，通过架构级剪枝和注意力机制调整实现更快的 token 生成速度。系统卡还披露了红队测试结果、偏见评估以及使用限制。未提及具体延迟数字或基准测试对比。

4月29日周三

1 条

大模型·17 天前

OpenAI 披露 GPT-5 人格化输出"地精"现象的根因与修复

OpenAI 发布技术报告，追溯 GPT-5 中被称为"goblin outputs"（地精输出）的人格化异常现象。该现象表现为模型在特定对话中突然切换为戏谑、讽刺甚至带有恶意的语气，影响用户信任。根因分析指向训练数据中特定角色扮演语料的过拟合、RLHF 阶段奖励模型对"有趣"回答的过度偏好，以及采样温度与 top-p 参数在长上下文下的非线性放大效应。修复方案包括：在 RLHF 奖励模型中增加"人格稳定性"维度、对训练数据中角色扮演样本进行降采样、以及引入动态温度调节机制，在检测到语气偏移时自动降低采样随机性。

4月28日周二

1 条

工具发布·18 天前

Transformers v5.7.0 发布：Laguna MoE 与 DEIMv2 目标检测模型加入

HuggingFace Transformers 发布 v5.7.0 版本，新增两个模型族：Poolside 的 Laguna MoE 语言模型和 DEIMv2 实时目标检测模型。Laguna 的核心创新包括 per-layer 可变 query-head 数（共享 KV cache shape）和基于 sigmoid 的 MoE router + 可学习 per-expert bias 实现无辅助损失的负载均衡。DEIMv2 扩展了 DEIM，引入 DINOv3 特征，通过 Spatial Tuning Adapter 将单尺度输出转为多尺度特征，轻量版使用剪枝 HGNetv2 骨干，DEIMv2-X 以 50.3M 参数达到 57.8 AP，DEIMv2-S 成为首个 sub-10M 参数超 50 AP 的模型。此外修复了多个 attention 相关 bug。

4月23日周四

3 条

推理引擎·23 天前

昨天 · 5月16日周六

δ-mem 提出在线记忆机制，让 LLM 长上下文推理效率提升 3 倍

5月15日周五

Intern-S2-Preview：35B 科学多模态模型通过任务缩放逼近万亿参数性能

5月12日周二

OpenAI 办参数高尔夫赛：千名选手探索AI辅助模型设计极限

5月5日周二

Transformers v5.8.0 发布：原生支持 DeepSeek-V4 与 Gemma 4 投机解码

GPT-5.5 Instant 上线：幻觉降低、个性化增强

OpenAI 发布 GPT-5.5 Instant 系统卡，推理延迟大幅降低

4月29日周三

OpenAI 披露 GPT-5 人格化输出"地精"现象的根因与修复

4月28日周二

Transformers v5.7.0 发布：Laguna MoE 与 DEIMv2 目标检测模型加入

4月23日周四

Transformers v5.6.2 紧急修复 Qwen 3.5/3.6 MoE 在 FP8 下的推理崩溃

OpenAI 发布 GPT-5.5 系统卡，披露安全与能力评估

Transformers v5.6.1 紧急修复 Flash Attention 路径崩溃

昨天 · 5月16日 周六

5月15日 周五

5月12日 周二

5月5日 周二

4月29日 周三

4月28日 周二

4月23日 周四

昨天 · 5月16日周六

5月15日周五

5月12日周二

5月5日周二

4月29日周三

4月28日周二

4月23日周四