
强化学习
强化学习
Alan_Lowe
世上没有白走的路,每一步都算数!——狂神
展开
-
Q-learning例1探索者【学习笔记3】
Q-learning例1探索者在一维空间中有一条长度为6的空间,最开始的时候探索者在0位置,宝藏在5位置,探索者在这个一维空间中可以向左向右走,他走多少步能找到宝藏?因为在初始阶段, 随机的探索环境, 往往比固定的行为模式要好,所以这也是累积经验的阶段, 我们希望探索者不会太贪婪,所以引入一个EPSILON 用来控制贪婪程度的。EPSILON 可以随着探索时间不断提升(越来越贪婪),不过在这个例子中, 我们就固定成 EPSILON = 0.9, 90% 的时间是选择最优策略, 10% 的时间来探索.1原创 2021-10-12 18:01:53 · 236 阅读 · 0 评论 -
Q-Learning理论推导【学习笔记2】
Q-Learning理论推导假如我们小时候放学回家写作业,会获得价值为1的奖励,而如果去看电视那么会受到值为2的惩罚。假如我们在第一时刻采取了写作业这个动作,那么我们的效益Q是1;接下来我们不会去立马进行第二个动作,而是想象在接下来采取的哪一个动作的效益Q更大,比如说我们在第二步继续采取写作业这个动作,那么效益Q是1 + 1 > 1 - 2。所以我们把最大的值乘以一个衰减值γ,比如0.9,并且加上到达第二步时获得的奖励R://我们把最大的值乘以一个衰减值γ//但是我们还未写完作业,所以奖励R原创 2021-10-12 17:59:05 · 394 阅读 · 0 评论 -
强化学习方法汇总【学习笔记1】
强化学习方法汇总【学习笔记1】学习方法汇总(1)不理解环境(Model-Free RL)从环境中得到反馈以学习,只能等待现实世界的反馈之后才能做出相应的动作。Q learningSarsa(×)Policy Gradients……(2)理解环境(Model-Based RL)与Model-Free相比多了“为事物建模”这道工序,并且能够想象现实世界可能出现的结果。(3)基于概率(Policy-Based RL)根据环境直接搜索出接下来动作的概率,然后根据概率采取行动。(4)基于价原创 2021-10-12 17:56:05 · 262 阅读 · 0 评论