论文速递·2 天前PersonalHomeBench:智能家居Agent评测框架发布arXiv 论文提出 PersonalHomeBench,一个用于评估基础模型在个性化智能家居环境中作为 Agent 助手的基准测试。该基准通过迭代过程逐步构建丰富的家庭状态,生成个性化、上下文相关的任务,并提供 PersonalHomeTools 工具箱支持家庭信息检索、设备控制和情境理解。实验表明,随着任务复杂度增加,模型性能系统性下降,在反事实推理和部分可观测场景下失败明显,后者需要有效的工具调用来收集信息。›1 条相关源