
强化学习
文章平均质量分 94
lsjmax
这个作者很懒,什么都没留下…
展开
-
优先经验回放(Prioritized Experience Replay)
经验回放(experience replay)在DQN算法中,为了打破样本之间关联关系,通过经验池,采用随机抽取经历更新参数。但是,对于奖励稀疏的情况,只有N多步正确动作后才有奖励的问题,会存在能够激励Agent进行正确学习的样本很少,采用随机抽取经历得方式,效率会很低,很多样本都奖励为0的,没什么区别。解决这个问题的主要从两方法考虑,经验存储方法,经验抽取的方法,目前主要采用经验抽取的方法。...原创 2019-10-27 16:51:01 · 15132 阅读 · 0 评论 -
基于离线策略的强化学习(PPO)
离线策略强化学习对于基于策略的强化学习,通过建立带θ\thetaθ的策略模型,通过策略梯度进行优化,梯度如下 ∇θU=Eτ−pθ(τ)[∇θlogPθ(τ)R(τ)]\nabla_\theta U=E_{\tau -p_\theta(\tau)}[\nabla_\theta log P_\theta(\tau)R(\tau)]∇θU=Eτ−pθ(τ)[∇θlogPθ(τ)R(τ)]该...原创 2019-10-23 20:05:27 · 3357 阅读 · 1 评论 -
基于策略的强化学习
基于值函数的强化学习缺点1.针对确定性策略。值函数是间接得到最优策略的方法,根据价值函数的大小,贪心选择值最大的动作,是确定性策略,每次面对同一个状态,选择的动作是同一个。2.存在策略退化。基于值函数的方法,基本是用近似器去拟合真实的价值函数,必然存在着一定的误差,但是即使将误差训练到很小了,可能导致策略变差。比如真实的价值函数得到的A,B两个动作值分别为,0.45,0.46,真正的策略应...原创 2019-10-19 16:51:06 · 3933 阅读 · 0 评论 -
价值函数近似
价值函数逼近在传统TD算法、Q-leanring中,V价值和Q价值通常是用表格存储,不适用于大规模问题。可以采用近似器来拟合真实的价值函数。Q(s,a,θ)≈Qπ(s,a)Q(s,a,\theta) ≈Q_π(s,a)Q(s,a,θ)≈Qπ(s,a)V(s,θ)≈Vπ(s)V(s,\theta) ≈V_π(s)V(s,θ)≈Vπ(s)用一个带θ\thetaθ参数的函数近似器,来代替真实...原创 2019-10-18 15:43:40 · 591 阅读 · 0 评论 -
Q-learning和Sarsa
Q-learningQ-learning是基于TD(0)TD(0)TD(0)的无模型强化学习算法。其采用的价值函数为动作价值函数Q(s,a)。主要价值函数迭代公式为:Qπ(st,at)=Qπ(st,at)+α(rt+1+γmaxaQ(st+1,at+1)−Q(st,a))Q_π(s_t,a_t)=Q_π(s_t,a_t)+\alpha(r_{t+1}+γmax_aQ(s_{t+1},a_{t...原创 2019-10-17 22:09:20 · 1060 阅读 · 0 评论 -
Model-free强化学习
强化学习几个问题1.在线学习与离线学习在线学习:agent与环境在线交互,将样本在线学习后,使用一次就丢掉。离线学习:agent与仿真环境进行交互,将样本进行存储,也可以从别的地方直接拿来样本,可重复的从样本池中抽取样本进行学习。离线学习样本的利用率较高,但是需要保证样本的可用性。2.奖励的延迟agent与环境交互,每次得到的是立即回报,可能需要一连串动作后,才能达到最终的成功状态,获...原创 2019-10-17 16:32:08 · 1497 阅读 · 0 评论 -
马尔可夫过程
马尔可夫过程强化学习基于马尔可夫过程,研究的问题都可以抽象成马尔可夫过程。其定义为满足马尔可夫性质的随机过程。马尔可夫性质:通俗来讲,即当前状态包含了所有相关的历史,只要当前的状态已知,下一个状态的发生可能性就已经确定,不需要知道从开始到当前状态所经历的具体的状态变换。P(st+1∣st)=P(st+1∣st,st−1,st−2...s0)P(s_{t+1}|s_t)=P(s_{t+1}|s...原创 2019-10-16 19:35:04 · 3949 阅读 · 0 评论