强化学习
war3gu
10年游戏开发经验,现使用cocos2dx开发手机游戏。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Q Learning
用一个actor pie 与环境交互,然后学习得到这个actor的Q函数,然后通过某种方法找到一个pie plus,它的Q函数更好,如此往复,actor越来越好double DQN,因为被高估的action,容易被选中,导致最后的Q函数高估。所以用run network选择action,target network 算值dueling DQN, 将Q分解为V+A,A的和强制为0,这样更新V,可...原创 2019-05-30 15:03:21 · 467 阅读 · 0 评论 -
ddqn
发现并证明了传统的DQN普遍会过高估计Action的Q值,而且估计误差会随Action的个数增加而增加。如果高估不是均匀的,则会导致某个次优的Action高估的Q值超过了最优Action的Q值,永远无法找到最优的策略。作者在他2010年提出的Double Q-Learning的基础上,将该方法引入了DQN中。具体操作是对要学习的Target Q值生成方式进行修改,原版的DQN中是使用TargetN...原创 2019-05-29 15:10:20 · 1691 阅读 · 0 评论 -
dqn
DL与RL结合的问题DL需要大量带标签的样本进行监督学习;RL只有reward返回值,而且伴随着噪声,延迟(过了几十毫秒才返回),稀疏(很多State的reward是0)等问题;DL的样本独立;RL前后state状态相关;DL目标分布固定;RL的分布一直变化,比如你玩一个游戏,一个关卡和下一个关卡的状态分布是不同的,所以训练好了前一个关卡,下一个关卡又要重新训练;过往的研究表明,使用非线...原创 2019-05-28 15:58:47 · 3822 阅读 · 0 评论 -
dueling-dqn
在许多基于视觉的感知的DRL任务中,不同的状态动作对的值函数是不同的,但是在某些状态下,值函数的大小与动作无关。根据以上思想,Wang等人提出了一种竞争网络结构(dueling network)作为DQN的网络模型。如上图所示,第一个模型是一般的DQN网络模型,即输入层接三个卷积层后,接两个全连接层,输出为每个动作的Q值。而(第二个模型)竞争网络(dueling net)将卷积层提取的抽象特征...原创 2019-05-28 15:54:00 · 828 阅读 · 0 评论 -
stochastic policy 和 Deterministic Policy 区别
核心的区别其实很简单,最终的策略是学出 pie(s) = a 还是 pie(s, a) = pdeterministic policy 缺少探索,容易出以下问题:2个一样的state(实际上不一样的,但是agent观察到的只是env的一部分,导致认为是一样的),输出同样的action,一个是正确,一个导致灾难性的后果。详情见,David Silver在视频中的迷宫例子。...原创 2019-05-28 15:51:30 · 1450 阅读 · 0 评论 -
TD简单说明
每一个后面的state,都可以修正前面的state的V(s).后一state的V(s)更接近真实值,比如后一state恰好是自循环,那么它的V(s)经过很少的几个回合,就可以得到真实值开车,前一秒感觉很正常,后一秒感觉快撞车,这时候就要修正前一秒的感觉TD Target 应该等于 V(s),TD error 应该等于0。这样得到的V(s)函数才是正确的利用每一step的数据评估V(s),M...原创 2019-05-28 15:48:37 · 728 阅读 · 0 评论 -
alpha zero说明
只有一个神经网络,采用最原始的棋盘信息,输出状态s的行棋概率p和价值v(就是胜利的概率)使用了残差网络每一步操作之后,都更新神经网络每条edge代表一种状态下的一种操作。需要记录3个值,P(s,a)操作概率,N(s,a)访问次数,Q(s,a)操作价值(胜利概率)MCTS探索中,每次行棋都遵从最大化UCB(这个只是模拟中的探索策略,不是最终的行棋策略π)碰到叶子结点s′,开始expand...原创 2019-05-28 15:44:31 · 1190 阅读 · 0 评论 -
David Silver深度强化学习第10课
纳什均衡中所有人都达到最优策略,没人愿意改变策略,改变意味着漏出破绽,别人就会改变策略,打败你。纳什均衡策略,就是你的最优策略,也是别人的最优策略,是所有参与者的最优策略。这个策略没有漏洞,无法被针对,其余的策略,都是可以被针对的,这一个是例外的。可以这么理解:游戏玩家不停的根据对手的策略修改自己的策略,直到所有人都达到一个最优的策略,那就是纳什均衡。别人改变策略,你的rl环境就变了,你改变...原创 2019-05-28 00:28:02 · 375 阅读 · 0 评论 -
David Silver深度强化学习第9课
decaying e-greedy 需要知道最优的Q(a),然后计算与次优的Q(a)之间的gap,gap越大,就越不需要探索,越小就越需要探索,这种算法的regret函数呈现对数形式,是最好的。 但是最优的Q(a)并不能预先知晓,所以需要想办法解决。每一台赌博机的Q值分布都是不一样的,越是分布广泛的Q代表其不确定性强,就要多操作,取得经验,提高其确定性一般的做法是:select action...原创 2019-05-28 00:26:01 · 329 阅读 · 0 评论 -
David Silver深度强化学习第8课
利用数据建立MDP模型,解出转化概率函数和reward函数从模型中采样对采样执行model-free rl(只所以对模型采样,而不是硬解模型预测未来,是为了提高效率,采样可以聚焦于大量出现的重要的事件)dyna算法核心learn and plan value function or policy from real and simulated experienceforward sear...原创 2019-05-28 00:21:09 · 283 阅读 · 0 评论 -
David Silver深度强化学习第7课
∇θπθ(s,a) = πθ(s, a) *[∇θπθ(s, a)/ πθ(s, a)] = πθ(s, a)∇θ logπθ(s, a),而这个∇θlog πθ(s, a)我们称之为得分函数(Score function)score function 是对数策略梯度MC policy gradient episode结束后,计算每个Q(s,a),然后按照score function * r...原创 2019-05-28 00:18:21 · 263 阅读 · 0 评论 -
强化学习基本概念
Value-Based(或Q-Learning)和Policy-Based(或Policy Gradients)是强化学习中最重要的两类方法,区别在于Value-Based是预测某个State下所有Action的期望价值(Q值),之后通过选择最大Q值对应的Action执行策略,适合仅有少量离散取值的Action的环境;Policy-Based是直接预测某个State下应该采取的Action,适...原创 2019-05-29 15:13:16 · 257 阅读 · 0 评论
分享