6、机器人可解释行为生成策略解析

机器人可解释行为生成策略解析

可解释行为生成基础

可解释规划问题的目标是找到一个既能达成目标,又能最小化计划距离和计划成本的可解释计划。我们假定可以将规划目标简化为机器人模型中计划成本与该计划和人类预期计划之间距离的线性组合。

最大可解释计划的定义为:从初始状态 $I_R$ 出发,能实现目标 $G_R$ 的计划 $\pi^* {MR}$,满足 $\arg\min {\pi_{MR}} C(\pi_{MR}) + \min_{\pi\in\Pi_{MR}^h} f_{IE}(D(\pi_{MR}, \pi, M_R))$ 。其中,$f_{IE}$ 是距离 $D$ 的单调递增函数,$\min_{\pi\in\Pi_{MR}^h} f_{IE}(D(\pi_{MR}, \pi, M_R))$ 被称为不可解释性得分(IE),它与上文中提到的可解释性得分相反。在本章中,由于我们主要关注的是最小化生成计划的成本,所以关注不可解释性得分能更方便地将可解释性概念融入算法,可将 IE 视为另一个成本项。不过,其他规划形式(如效用最大化形式)可能会从使用可解释性得分中受益。

基于模型的可解释规划

当已知人类的心理模型 $M_R^h$ 和距离函数 $D$ 时,我们可以进行基于模型的可解释规划。这里假设人类预期的计划集对应于 $M_R^h$ 中的最优计划,即 $\Pi_{MR}^h = {\pi|C_R^h(\pi) = C^*_{MR^h}}$ 。对于每个机器人计划,会根据给定的距离函数 $D$ 计算其与该预期计划集的最小距离。

  • 通过调和搜索生成计划
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值