
强化学习
你会知道我是谁
就业于天津
联系邮箱sunbaojia1992@sina.com
欢迎交流
展开
-
Q-learning算法
缺点:在估计动作价值的时候包含了“选取最大估计”的步骤,所以在学习的过程中可能会导致过估计,特别是DQN算法。如果这种过估计不均匀或者没有集中在想要了解的状态上,就会产生负面的影响。...原创 2020-05-26 09:48:29 · 673 阅读 · 0 评论 -
强化学习的一些核心概念
#背景目前,解决RL问题的主要方法有两种:基于值函数的RL方法和基于策略搜索的RL方法。还有一种混合方法,称为actor-critic方法,它既采用了值函数的功能,又汲取了策略搜索的方法。1.值函数估计值函数或价值函数:即估计智能体在给定状态(状态-动作)下的好坏程度的函数;对于有多好是由预期回报来表现的,同时也要注意到我们想要得到的预期回报取决于它所采取的行动/动作,因此要根据特定的策略(生成动作)来定义值函数。状态值函数:就是在状态为s时的预期奖励期望;动作(状态-动作)值函数就是在状态s时采取原创 2020-05-23 15:04:27 · 417 阅读 · 0 评论 -
PPO算法
近端策略优化(Proximal Policy Optimization,PPO)算法背景:策略梯度虽然在有一定难度的问题中取得了一些成效,但是这类方法对于迭代步骤的数量非常敏感;如果选的太小,训练的结果就会令人绝望;如果选的过大,反馈信号就会淹没在噪声中,甚至有可能使训练模型呈现雪崩式的下降。这类方法的采样效率也是非常低,学习简单的任务就需要百万级甚至以上的总迭代次数。策略梯度方法的缺点是数据效率和鲁棒性不好。对于TRPO算法比较复杂,且不兼容dropout和参数共享(策略和价值网络间),且使用约束原创 2020-05-23 15:02:56 · 3933 阅读 · 0 评论