
强化学习
文章平均质量分 89
lesileqin
桃花影落飞神剑,碧海潮声按玉箫
展开
-
时序差分算法(Temporal Difference)
文章目录1、时序差分算法2、Sarsa3、Q-Learning基于时序差分的算法不需要事先知道环境的状态转移函数和奖励函数1、时序差分算法时序差分算法是一种用来估计一个策略的价值函数的方法,可以从样本中学习,不需要事先知道环境。蒙特卡洛方法对价值函数的增量更新方式:蒙特卡洛方法需要等到整个序列结束才能计算得到这一次的回报,而时序差分只需要当前步结束就行,它用当前获得的奖励加上下一个状态的价值估计来当作在当前状态会获得的回报:其中Rt+γV(St+1−V(St))R_t + \gamma V原创 2021-11-27 14:45:02 · 6968 阅读 · 1 评论 -
强化学习中的动态规划算法(Dynamic Programming)
文章目录1、动态规划的基本思想是将待求解问题分解成若干子问题,先求解子问题,然后从这些子问题的解得到原问题的解1、原创 2021-11-26 15:21:05 · 3318 阅读 · 0 评论 -
最优策略(Optimal Policy)及贝尔曼最优方程(Bellman Optimally Equation)
文章目录1、最优策略(Optimal Policy)2、贝尔曼最优方程(Bellman Optimally Equation)3、参考文献1、最优策略(Optimal Policy)强化学习的目标通常是找到一个策略使得它从初始状态出发能获得最多的期望回报。首先定义策略之间的偏序关系:π>π′{\pi} > {\pi}'π>π′,当且仅当对于任意状态 s 都有 Vπ(s)⩾Vπ′(s)V^{\pi}(s)\geqslant V^{\pi'}(s)Vπ(s)⩾Vπ′(s)。在有限状态原创 2021-11-25 16:46:47 · 5840 阅读 · 0 评论 -
蒙特卡洛方法
文章目录蒙特卡洛方法(Monte-Carlo methods)1)计算π\piπ2)计算状态价值函数参考文献蒙特卡洛方法(Monte-Carlo methods)1)计算π\piπ蒙特卡洛方法也被称为统计模拟方法,是一种基于概率统计的数值计算方法。下面以计算 π\piπ 为例,介绍蒙特卡洛方法:例如在上图的一个边长为2的正方形中又一个圆(暂且不管里面的点),我们可以很轻松的得到:正方形的面积 A1=22=4A_1 = 2^2 = 4A1=22=4圆的面积 A2=πr2=π12=πA_2原创 2021-11-25 16:31:48 · 2284 阅读 · 0 评论 -
马尔科夫决策过程
文章目录1、马尔科夫过程(Markov Process)1)随机过程(Stochastic Process)2)马尔科夫性质(Markov Property)3)马尔科夫过程(Markov Process)或被称为马尔科夫链(Markov Chain)2、马尔科夫奖励过程(Markov Reward Process)1)回报(Return)2)价值函数(Value Function)3、马尔科夫决策过程(Markov Decision Process)1)策略(Policy)2)状态价值函数(State-v原创 2021-11-24 21:39:34 · 1285 阅读 · 0 评论