大模型·1 天前Qwen3.6-35B-A3B 登顶 Terminal-Bench 2.0,超越 Gemini 2.5 ProQwen3.6-35B-A3B 与 9B 模型正式登上 Terminal-Bench 2.0 公开榜单。little-coder 脚手架配合 Qwen3.6-35B-A3B 取得 24.6%(±3.2)的成绩,超越 Gemini 2.5 Pro(19.6%)和 Qwen3-Coder-480B(23.9%),证明了脚手架-模型协同优化在困难 agentic 基准上的有效性。Qwen3.5-9B 获得 9.2%,表明 10B 以下本地模型也能在硬基准上被量化评估。›1 条相关源
大模型·2 天前Intern-S2-Preview:35B 科学多模态模型通过任务缩放逼近万亿参数性能上海 AI Lab 发布 Intern-S2-Preview,一个 35B 参数的科学多模态基础模型。不同于传统参数和数据缩放,该模型探索"任务缩放"——通过增加科学任务的难度、多样性和覆盖度来解锁模型能力。基于 Qwen3.5 继续预训练,采用从预训练到强化学习的全链条训练管线,在多个核心专业科学任务上达到与万亿参数级 Intern-S1-Pro 相当的性能。技术亮点包括:RL 阶段引入共享权重 MTP(Multi-Token Prediction)配合 KL 损失,减少训练与推理行为不匹配,显著提升 MTP 接受率和 token 生成速度;同时采用 CoT 压缩技术缩短推理响应长度。该模型也是首个同时具备材料晶体结构生成能力和强通用能力的开源模型。›1 条相关源
推理引擎·2 天前本地实测 Qwen 3.6 MTP:35B MoE 模型 300K 上下文仅用 28GB VRAMReddit 用户使用 unsloth 发布的 Qwen3.6-35B-A3B-UD-Q5_K_S(MTP 版)在本地进行多轮长上下文测试,构建 Pygame 迷宫游戏。在 32GB RDNA 4 显卡上,35B MoE 模型在 Q4_0 量化下达到 300K 上下文,VRAM 占用 28.3GB,仍有空间扩展到 400K。用户实测 MTP 版本在 27B 稠密模型上带来约 1.5 倍 tokens/s 加速,但 35B MoE 版本仅提升不到 10%。测试中 MoE 模型在 200K 附近出现稳定性问题,切换至 Q8_0 量化的 27B 模型后解决。MTP 推理需使用 llama.cpp 的 MTP 原型 Docker 镜像(haven oammo/llama:vulkan-server),后端为 Vulkan。›1 条相关源
推理引擎·3 天前llama.cpp b9142 发布:为 Adreno GPU 添加 Q5_0/Q5_1 MoE 支持llama.cpp 发布 b9142 版本,核心变更为 OpenCL 后端为 Adreno GPU 新增 Q5_0 和 Q5_1 两种 5-bit 量化格式的 MoE(混合专家)支持。该 PR 由 Qualcomm 工程师贡献,同时修复了潜在的内存泄漏问题,并针对非 Adreno 平台抑制了未使用变量警告。此次更新不涉及 API 破坏性变更,属于推理引擎后端的量化能力扩展。›1 条相关源
推理引擎·3 天前llama.cpp b9140 修复 Adreno 上 MoE 预热崩溃llama.cpp 发布 b9140 版本,核心修复是 OpenCL 后端在 Adreno GPU(高通移动 GPU)上预热 MoE(混合专家)模型时的崩溃问题(issue #22876)。该版本同步更新了各平台二进制包,包括 macOS(Apple Silicon / Intel)、Linux(x64/arm64/s390x,支持 Vulkan/ROCm/OpenVINO/SYCL)、Android arm64 及 Windows x64。无 Breaking Change。›1 条相关源
推理引擎·3 天前Ovis2.6-80B-A3B:80B参数MoE多模态模型,推理仅激活3B阿里云AIDC发布Ovis2.6-80B-A3B多模态大模型,将LLM骨干升级为Mixture-of-Experts(MoE)架构,总参数80B但推理时仅激活约3B参数,大幅降低服务成本。模型支持64K上下文窗口和2880×2880高分辨率图像输入,新增"Think with Image"能力——模型可在Chain-of-Thought推理过程中主动调用裁剪、旋转等视觉工具对图像区域进行多轮自反思分析,提升复杂视觉任务的准确率。此外,OCR、文档和图表理解能力得到强化,特别适合长文档问答场景。›1 条相关源
推理引擎·5 天前调大 ubatch 让 llama.cpp MoE 模型预填提速 5.5 倍用户在 RTX 3090 上运行 gpt-oss-120b-F16.gguf 时发现,将 llama.cpp 的物理微批大小(-ub)从默认 512 提升至 8192,同时将 --n-cpu-moe 从 26 调至 28(将更多 MoE 层卸载到 CPU 以腾出显存),可使 prompt 处理吞吐从约 380 tok/s 跃升至约 2091 tok/s,提升约 5.5 倍。代价是 token 生成速度从约 32.3 tok/s 降至约 30.1 tok/s,下降约 7%。该发现为显存受限场景下的 MoE 模型推理提供了一种无需硬件的免费优化手段。›1 条相关源
推理引擎·5 天前用 Intel 傲腾持久内存跑万亿参数模型,4 tokens/s 本地推理一位 Reddit 用户用 Intel 已停产的 Optane 持久内存(PMem)搭建了一台本地推理机器,成功运行 Kimi K2.5(万亿参数 MoE 模型),生成速度约 4 tokens/s。系统配置 768GB PMem(内存模式,DRAM 作缓存),GPU 仅 12GB,通过 llama.cpp 的 hybrid GPU/CPU 推理实现。注意力权重、密集层、共享 expert 和路由组件放在 GPU 上,稀疏 expert 权重驻留 PMem/DRAM 按需计算。作者使用了 Unsloth Q2_K_XL 量化,并尝试了 override-tensor 与 ngl auto + cmoe 两种张量放置策略。›1 条相关源
推理引擎·6 天前8GB显存跑190K上下文:Qwen3.6-35B-A3B + llama.cpp TurboQuant 实测用户在一台搭载 RTX 4060 8GB 显存、32GB DDR5 内存的笔记本上,通过 llama.cpp TurboQuant 分支成功运行 Qwen3.6-35B-A3B(MoE 架构,35B 参数,每 token 激活 3B)的 Q5 量化版,实现约 37–51 tok/s 的推理速度,上下文窗口达到约 190K。关键技术配置包括:--n-gpu-layers 430 将大部分层卸载到 GPU,--n-cpu-moe 35 将 MoE 专家放在 CPU 上以节省显存,--cache-type-k/v "turbo4" 启用 TurboQuant 的 4-bit KV cache 量化,以及 --flash-attn on 降低显存占用。该方案通过 Tailscale 将笔记本作为局域网推理服务器使用。›1 条相关源
推理引擎·7 天前vLLM v0.20.2 发布:修复 DeepSeek V4 稀疏注意力与 KV 缓存分配vLLM 发布 v0.20.2 小版本补丁,包含 6 个提交,主要修复三个问题:DeepSeek V4 稀疏注意力在 Hopper 架构上的持久 topk 路径,修复 MTP=1 场景下的挂起问题;V1 引擎 KV 缓存管理器中的 KV 块分配失败错误;Qwen3-VL 在高负载下的 deepstack 边界检查失效。此外还修复了 gpt-oss MXFP4 在 torch.compile 下的 hidden_dim_unpadded 传递问题。无破坏性变更。›1 条相关源
推理引擎·7 天前NVIDIA 发布 Star Elastic:一个检查点内含 30B/23B/12B 三模型,零样本切片推理NVIDIA 发布 Star Elastic,一种后训练方法应用于 Nemotron Nano v3,将 30B 参数的主检查点嵌套为 23B 和 12B 子模型,三者共存于同一检查点(支持 BF16/FP8/NVFP4)。核心技术是 Gumbel-Softmax 可学习路由器,将任意目标参数预算映射到最优嵌套配置,覆盖注意力头、Mamba SSM 头、MoE 专家、FFN 通道和嵌入维度等弹性轴。组件重要性排序在训练前计算完成。推理策略上,可将 23B 子模型分配给思考阶段、30B 完整模型用于最终回答,实现"小模型思考、大模型作答"的流水线。KV cache 在三模型间共享,支持推理速度的滑动调节。›1 条相关源
推理引擎·7 天前llama.cpp MTP 让 12GB 显存跑 35B MoE 达 80 tok/sReddit 用户分享在 12GB 显存的 RTX 4070 Super 上,通过 llama.cpp 的 MTP(Multi-Token Prediction)分支配合 Qwen3.6-35B-A3B-MTP GGUF 模型,实现了 80+ tok/s 的生成速度与 80%+ 的草稿接受率,上下文窗口达 128K。关键参数 -fitt 1536 用于平衡 GPU/CPU 负载,为 MTP 草稿模型和 KV cache 预留显存。该 MTP 功能尚未合入 llama.cpp 主线,需从源码编译并应用 draft PR。›1 条相关源
工具发布·11 天前Transformers v5.8.0 发布:原生支持 DeepSeek-V4 与 Gemma 4 投机解码HuggingFace Transformers 发布 v5.8.0,主要新增 DeepSeek-V4 和 Gemma 4 Assistant 两个模型架构。DeepSeek-V4 是 DeepSeek 的新一代 MoE 模型,架构上弃用 MLA 改用混合局部+长程注意力,将残差连接替换为流形约束超连接(mHC),并在前几层 MoE 使用静态 token-id→expert-id 哈希表做引导。Gemma 4 Assistant 是一个纯文本小模型,专为 Gemma 4 做投机解码(MTP 方法),全模型共享 KV cache,跳过预填充阶段,并引入交叉注意力以利用目标模型的上下文。该版本无已知破坏性变更。›1 条相关源
推理引擎·12 天前vLLM v0.20.1 发布:DeepSeek V4 推理稳定性与性能优化vLLM 发布 v0.20.1 补丁版本,重点围绕 DeepSeek V4 模型进行稳定性和性能改进。核心变化包括:多流 pre-attention GEMM 支持及可配置阈值调优、BF16/MXFP8 all-to-all 通信、PTX cvt 指令加速 FP32→FP4 转换、集成 tile 内核优化 head 计算。修复了 persistent topk 在 TopK=1024 时的死锁问题、inter-CTA 初始化竞态条件、AOT 编译缓存加载错误、torch inductor 错误、重复 RoPE 缓存初始化等关键缺陷。此外修复了 max_num_batched_token 未正确捕获到 CUDA graph、expandable_segments 自动禁用等通用问题。无破坏性变更。›1 条相关源
工具发布·18 天前Transformers v5.7.0 发布:Laguna MoE 与 DEIMv2 目标检测模型加入HuggingFace Transformers 发布 v5.7.0 版本,新增两个模型族:Poolside 的 Laguna MoE 语言模型和 DEIMv2 实时目标检测模型。Laguna 的核心创新包括 per-layer 可变 query-head 数(共享 KV cache shape)和基于 sigmoid 的 MoE router + 可学习 per-expert bias 实现无辅助损失的负载均衡。DEIMv2 扩展了 DEIM,引入 DINOv3 特征,通过 Spatial Tuning Adapter 将单尺度输出转为多尺度特征,轻量版使用剪枝 HGNetv2 骨干,DEIMv2-X 以 50.3M 参数达到 57.8 AP,DEIMv2-S 成为首个 sub-10M 参数超 50 AP 的模型。此外修复了多个 attention 相关 bug。›1 条相关源
推理引擎·23 天前Transformers v5.6.2 紧急修复 Qwen 3.5/3.6 MoE 在 FP8 下的推理崩溃Hugging Face Transformers 发布 v5.6.2 补丁版本。此前 v5.6.x 中 Qwen 3.5 和 3.6 的 MoE(仅文本)模型在使用 FP8 精度推理时出现崩溃,本次补丁修复了配置读取与 kernel 错误处理逻辑(PR #45610),使 FP8 下的 MoE 推理恢复正常。无破坏性变更,仅修复 bug。›1 条相关源
大模型·24 天前OpenAI 推出 Workspace Agents,Google 发布 Workspace IntelligenceOpenAI 发布 Workspace Agents,可在 Google Workspace 和 Microsoft 365 中执行跨应用任务,如自动整理邮件、生成会议纪要、管理文档等。Google 同步推出 Workspace Intelligence,基于 Gemini 2.5 Pro 深度集成,支持跨 Gmail、Drive、Calendar 的智能搜索与自动化。同时 Qwen3.6-27B 发布,延续 MoE 架构,在推理与编程任务上表现提升。›1 条相关源
推理引擎·25 天前Ollama v0.21.1 发布:支持 Kimi CLI 与 MLX 推理多项优化Ollama 发布 v0.21.1 版本,新增 Kimi CLI 启动支持,用户可通过 ollama launch kimi --model kimi-k2.6:cloud 直接运行 Kimi K2.6 多智能体系统,擅长长周期自主执行任务。MLX 运行器新增 logprobs 支持,采样阶段将 top-P 与 top-K 融合为单次排序并加入重复惩罚,提升采样速度;tokenization 移入请求处理 goroutine 以改善延迟;数组管理线程安全性增强。GLM4 MoE Lite 通过融合 sigmoid 路由头提升性能。修复 macOS 应用切换对话后模型显示陈旧、Gemma 4 在 think=false 时结构化输出异常等问题。无破坏性变更。›1 条相关源
推理引擎·29 天前vLLM v0.19.1 发布:升级 Transformers 5.5.3 并修复 Gemma4 流式工具调用 BugvLLM 发布 v0.19.1 补丁版本,基于 v0.19.0 升级 Transformers 至 v5.5.3,并集中修复 Gemma4 模型的多个流式工具调用 Bug。关键修复包括:流式工具调用中 JSON 分隔符残留导致非法 JSON、HTML 内容重复、布尔/数值类型切分后拼接错误、裸 null 被转为字符串 "null" 等问题。此外新增对 Gemma4 量化 MoE、Eagle3 投机解码、LoRA 适配器加载的支持,并修复了 PT 模型因缺少 BOS token 导致的 token 重复问题。›1 条相关源