InfoPie · AI · 大模型 · 数据库

5月15日周五

1 条

论文速递·2 天前

PersonalHomeBench：智能家居Agent评测框架发布

arXiv 论文提出 PersonalHomeBench，一个用于评估基础模型在个性化智能家居环境中作为 Agent 助手的基准测试。该基准通过迭代过程逐步构建丰富的家庭状态，生成个性化、上下文相关的任务，并提供 PersonalHomeTools 工具箱支持家庭信息检索、设备控制和情境理解。实验表明，随着任务复杂度增加，模型性能系统性下降，在反事实推理和部分可观测场景下失败明显，后者需要有效的工具调用来收集信息。

5月15日 周五

PersonalHomeBench：智能家居Agent评测框架发布

5月15日周五