工具发布·更新于 2026/05/12 17:56

26M参数无FFN模型Needle开源，消费级设备跑工具调用

Cactus Compute 开源了 Needle，一个 26M 参数的纯函数调用模型，可在手机、手表等消费级设备上运行，prefill 达 6000 tok/s、decode 达 1200 tok/s。核心发现：工具调用本质是检索+组装（匹配查询到工具名、提取参数值、输出 JSON），不需要大模型的推理能力，因此可以去掉全部 FFN 层。整个模型仅由 attention 和 gating 组成，称为 Simple Attention Networks。预训练在 16 块 TPU v6e 上耗时 27 小时处理 200B tokens，后训练用 Gemini 合成的 2B tokens 函数调用数据仅需 45 分钟。在单次函数调用上超越 FunctionGemma-270M、Qwen-0.6B 等模型，但作者指出这些模型在对话场景中能力更强。

速读

26M参数无FFN模型Needle在消费级设备上以6000 tok/s预训练速度超越FunctionGemma-270M

26M参数无FFN模型Needle开源，消费级设备跑工具调用

相关源 (1)