工具发布·更新于 2026/05/12 17:56
26M参数无FFN模型Needle开源,消费级设备跑工具调用
Cactus Compute 开源了 Needle,一个 26M 参数的纯函数调用模型,可在手机、手表等消费级设备上运行,prefill 达 6000 tok/s、decode 达 1200 tok/s。核心发现:工具调用本质是检索+组装(匹配查询到工具名、提取参数值、输出 JSON),不需要大模型的推理能力,因此可以去掉全部 FFN 层。整个模型仅由 attention 和 gating 组成,称为 Simple Attention Networks。预训练在 16 块 TPU v6e 上耗时 27 小时处理 200B tokens,后训练用 Gemini 合成的 2B tokens 函数调用数据仅需 45 分钟。在单次函数调用上超越 FunctionGemma-270M、Qwen-0.6B 等模型,但作者指出这些模型在对话场景中能力更强。
速读
26M参数无FFN模型Needle在消费级设备上以6000 tok/s预训练速度超越FunctionGemma-270M
相关源 (1)
- r/LocalLLaMA · 2026/5/12 17:56:09https://www.reddit.com/r/LocalLLaMA/comments/1tb9b0r/needle_we_distilled_gemini_tool_calling_into_a/