阿里云AIDC发布Ovis2.6-80B-A3B多模态大模型,将LLM骨干升级为Mixture-of-Experts(MoE)架构,总参数80B但推理时仅激活约3B参数,大幅降低服务成本。模型支持64K上下文窗口和2880×2880高分辨率图像输入,新增"Think with Image"能力——模型可在Chain-of-Thought推理过程中主动调用裁剪、旋转等视觉工具对图像区域进行多轮自反思分析,提升复杂视觉任务的准确率。此外,OCR、文档和图表理解能力得到强化,特别适合长文档问答场景。
Hugging Face 联合创始人发帖称,在 iPhone 上通过 AI Desktop 98 应用本地运行 Qwen 3.6 27B 模型(开启飞行模式),其编码能力接近 Claude Opus 在 Claude Code 中的表现。该应用支持在 iOS 设备上离线运行大模型,无需联网即可完成复杂编程任务。目前尚不清楚具体评测基准和量化精度,但这一对比暗示小参数本地模型在特定场景下已逼近云端顶级模型。
Google 在 Gemini API 中推出 Event-Driven Webhooks,一种基于推送的通知机制,用于替代传统轮询(polling)方式。对于长时间运行的推理任务(如视频理解、代码生成),客户端无需反复轮询任务状态,而是由服务端在任务完成时主动推送结果。该机制降低了客户端与服务端之间的无效请求开销,减少了端到端延迟,并简化了客户端的状态管理逻辑。
Google 在 Cloud Next 大会上宣布推出第八代 TPU 的两款专用芯片,分别针对推理和训练场景优化,定位为"Agent 时代"的基础设施。这是 Google 首次在同一代 TPU 中推出两款不同规格的芯片,表明其正在从通用加速器向场景专用芯片演进。目前官方尚未公布具体算力、显存容量、互联带宽等关键参数,也未说明是否兼容现有 TPU v5 的 Pod 拓扑。