强化学习
文章平均质量分 89
lan_12138
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
最大熵逆强化学习
逆强化学习给定expert (专家)的一组demonstration (示范) D={τi}i=1nD=\{\tau_i\}_{i=1}^nD={τi}i=1n, 其中τi={(si1,ai1),(si2,ai2),...,(si(n−1),ai(n−1)),sn}\tau_i = \{(s_{i1}, a_{i1}), (s_{i2}, a_{i2}), ..., (s_{i(n-1)}, a_{i(n-1)}), s_n\}τi={(si1,ai1),(si2,ai2),...,(si(原创 2021-08-17 15:13:51 · 3451 阅读 · 0 评论 -
逆强化学习经典算法复现(一)
**前言:**这篇博客复现的是文章“Algorithms for Inverse Reinforcement Learning”中有限状态空间的Grid World的相关实验,重点是如何将非线性规划模型转化为线性规划模型。环境模型首先,构造环境模型Gridworld,代码如下所示:import numpy as npimport randomimport copyclass MyGirdWorld(object): size = 5 reward_grid = np.zero原创 2021-07-27 16:32:59 · 2702 阅读 · 0 评论 -
逆强化学习论文笔记 (一)
Algorithm for Inverse Reinforcement Learning摘要:这篇文章解决了马尔可夫决策过程中的逆强化学习问题,也就是,从一个给定被观察的、最优的行为中提取出reward function。IRL也许可以帮助apprenticeship learning获得熟练的行为,以及确定由自然系统优化的reward function。我们首先刻画给定最优策略的reward function的集合,然后我们推导出三个IRL的算法。前面两个算法解决知道entire policy的情形;我原创 2021-07-05 19:48:56 · 1482 阅读 · 0 评论
分享