← 返回信息流
推理引擎·更新于 2026/05/15 15:09

离线行李箱机器人:Jetson Orin NX 跑 Gemma 4,200ms 缓存 TTFT

一位开发者用 Jetson Orin NX SUPER 16GB 打造了完全离线的行李箱机器人 Sparky,无 WiFi/BT/蜂窝网络。核心推理引擎为 llama.cpp 加载 Gemma 4 E4B(Q4_K_M 量化,q8_0 KV cache,flash attention),12K 上下文,缓存 TTFT 约 200ms,持续 14-15 tok/s。语音采用 SenseVoiceSmall STT + Piper TTS(43Hz 口型同步),视觉与 OCR 由 Gemma 4 原生完成,不再需要 BLIP 子进程。30+ 传感器数据每轮以自然语言拼入 prompt。最大优化点:将 persona 和工具描述放在 prompt 顶部,历史在中间,动态传感器和视觉数据放在最新用户轮次末尾,避免系统块内动态内容破坏前缀缓存。

速读

Jetson Orin NX SUPER 16GB 用 llama.cpp 跑 Gemma 4 E4B Q4_K_M,缓存 TTFT 约 200ms,持续速度 14-15 tok/s

相关源 (1)