Algorithms for Inverse Reinforcement Learning

本文深入探讨了在设计人员缺乏良好回馈函数的情况下,如何通过最优轨迹来找回代价函数的过程。从马尔科夫决策过程(MDPs)出发,讨论了在有限状态空间中的Q函数应用,并将之与支持向量机(SVM)相联系,进而阐述了在大型状态空间中使用线性函数近似的方法。文章特别关注了从采样轨迹中推导IRL(Inverse Reinforcement Learning)策略的重要性,最终得出该领域存在研究潜力的结论。

v [source] ICML

[year] 2000

设计人员只有粗线的概念而不能形成一个良好的回馈函数时

希望能通过一些最优情况找回代价函数

 

1. MDPs 在之前一篇博文中讲过了

Q函数

2.IRL in Finite State Spaces

归为优化

这个优化的形式,使最小中的最大,不由让人想到SVM(事实的确有这样一篇文章)

3. Linear Function Approximation in Large State Spaces

R(s) =\Sum_{i=1}^{d} \alpha_i \phi_i(s)

4. IRL from Sampled Trajectories

此时已经有若干最优轨迹

 

结论:有搞头!

转载于:https://www.cnblogs.com/justin_s/archive/2011/06/04/2072405.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值