论文速递·更新于 2026/05/15 04:00

PersonalHomeBench：智能家居Agent评测框架发布

AI Agent Benchmark Tool Use Smart Home Reasoning

arXiv 论文提出 PersonalHomeBench，一个用于评估基础模型在个性化智能家居环境中作为 Agent 助手的基准测试。该基准通过迭代过程逐步构建丰富的家庭状态，生成个性化、上下文相关的任务，并提供 PersonalHomeTools 工具箱支持家庭信息检索、设备控制和情境理解。实验表明，随着任务复杂度增加，模型性能系统性下降，在反事实推理和部分可观测场景下失败明显，后者需要有效的工具调用来收集信息。

速读

PersonalHomeBench评测框架发布，含PersonalHomeTools工具箱，支持反应式与主动式Agent，反事实推理场景表现差

PersonalHomeBench：智能家居Agent评测框架发布

相关源 (1)