推理引擎 · 6 天前
Reddit 用户对 Qwen 3.6 27B 的 MTP(Multi-Token Prediction)推测解码进行系统测试,跑了 300+ 组基准后发现:推测解码的收益完全由任务类型主导,模型量化等级和温度影响甚微。代码任务下 draft token 接受率高达 79-89%,F16 量化下推理速度从 6.6 tok/s 提升至 17.9 tok/s,接近三倍;而创意写作任务中 Q4_K_M 量化下速度反而从 15.1 tok/s 降至 13.7 tok/s。核心原因在于内存带宽瓶颈:F16 模型体积 51GB,每次 decode 都要完整过一遍模型,被接受的 draft token 可以跳过这一步;而 Q4_K_M 仅 16GB,基线已经很快,draft 开销在不可预测的任务上得不偿失。
› 1 条相关源
推理引擎 · 6 天前
用户在一台搭载 RTX 4060 8GB 显存、32GB DDR5 内存的笔记本上,通过 llama.cpp TurboQuant 分支成功运行 Qwen3.6-35B-A3B(MoE 架构,35B 参数,每 token 激活 3B)的 Q5 量化版,实现约 37–51 tok/s 的推理速度,上下文窗口达到约 190K。关键技术配置包括:--n-gpu-layers 430 将大部分层卸载到 GPU,--n-cpu-moe 35 将 MoE 专家放在 CPU 上以节省显存,--cache-type-k/v "turbo4" 启用 TurboQuant 的 4-bit KV cache 量化,以及 --flash-attn on 降低显存占用。该方案通过 Tailscale 将笔记本作为局域网推理服务器使用。
› 1 条相关源
大模型 · 6 天前
METR(Model Evaluation & Threat Research)发布的时间跨度基准测试中,Anthropic 的 Claude Mythos 模型表现远超此前所有模型,直接突破了图表量程。METR 的测试衡量 AI 在开放式任务中能持续自主执行多长时间,被视为"AI 领域最重要的图表"。Claude Mythos 的成绩显著拉高了曲线,反映出模型在长周期自主任务中的能力跃升。
› 1 条相关源
大模型 · 7 天前
Hugging Face 联合创始人发帖称,在 iPhone 上通过 AI Desktop 98 应用本地运行 Qwen 3.6 27B 模型(开启飞行模式),其编码能力接近 Claude Opus 在 Claude Code 中的表现。该应用支持在 iOS 设备上离线运行大模型,无需联网即可完成复杂编程任务。目前尚不清楚具体评测基准和量化精度,但这一对比暗示小参数本地模型在特定场景下已逼近云端顶级模型。
› 1 条相关源