← 返回信息流
论文速递·更新于 2026/05/15 04:00

PersonalHomeBench:智能家居Agent评测框架发布

arXiv 论文提出 PersonalHomeBench,一个用于评估基础模型在个性化智能家居环境中作为 Agent 助手的基准测试。该基准通过迭代过程逐步构建丰富的家庭状态,生成个性化、上下文相关的任务,并提供 PersonalHomeTools 工具箱支持家庭信息检索、设备控制和情境理解。实验表明,随着任务复杂度增加,模型性能系统性下降,在反事实推理和部分可观测场景下失败明显,后者需要有效的工具调用来收集信息。

速读

PersonalHomeBench评测框架发布,含PersonalHomeTools工具箱,支持反应式与主动式Agent,反事实推理场景表现差

相关源 (1)