增强学习
夏殇0808
越努力越幸运
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【撕书系列DRL】CH2-动作空间设计
好的动作空间会简化状态空间和回报函数的设计。原创 2022-05-18 22:43:57 · 678 阅读 · 0 评论 -
【撕书系列DRL】CH1-需求分析
介绍了关于DRL算法适用性的需求分析方法。1、先考虑这是不是一个DRL问题,2、然后什么情况下应该考虑使用DRL算法,3、然后开始评估算法可行性4、最后合理设计模块框架原创 2022-05-13 14:24:45 · 277 阅读 · 0 评论 -
CH2-NLG应用之【对话系统】
介绍了NLG中关于对话系统的相关算法,涉及《Deal or No Deal? End-to-End Learning for Negotiation Dialogues》和《Hierarchical Text Generation and Planning for Strategic Dialogue》两篇论文大致介绍。原创 2020-01-29 12:21:26 · 556 阅读 · 0 评论 -
RL中的策略优化问题
策略迭代如果使用值函数重新定义强化学习的目标,我们可以得到:RL就是找到最优的策略,使得每一个状态的价值最大化。相当于求解π∗=argmaxaqπ∗(s,a)\pi^{*}=argmax_{a}q_{\pi^{*}}(s,a) π∗=argmaxaqπ∗(s,a)而对于每一个状态对应的行为,我们希望找到使其价值最大化的行为:a∗=argmaxaqπ∗(s,a)a^{*}=argma...原创 2019-11-05 21:19:04 · 1165 阅读 · 0 评论 -
RL的分类
RL算法的分类1. 分类标准一从“是否能对环境建模”出发,RL可以被划分为 Model-Free 和Model-Based.二者之间的区别就是 agent能不能为环境建模,也就是去学习一个函数可以预测状态转移和收益。如果我们为环境建模,那么agent就可以提前预测各种选择下的情况,并从这些预测过程中学到更多经验,再应用到实际行为中。最著名的就是AlphaZero的例子,在 sample ...原创 2019-11-05 21:18:11 · 1090 阅读 · 0 评论 -
RL中的关键概念
States and Observationsstate 是对word 的描述,是完整的;observation 是对state的描述,是不完整的。他们都用一种real_valued向量、矩阵或者更高阶的tensor来表述。比如,可观测状态可以表示成RGB矩阵,机器人的状态可以表示成关节的角度和速度Action Spaces给定环境下的动作集合,分为离散的(棋类游戏)和连续的(机器人)。P...原创 2019-11-05 21:15:45 · 1197 阅读 · 0 评论
分享