
强化学习
文章平均质量分 56
eowyn0406
加班
展开
-
如何用四元数表示姿态差
在机器人控制中,经常需要控制末端工具的姿态,如果用欧拉角表示姿态,会出现万向锁的问题,而使用四元数就不会有这个问题,此外四元数求出的姿态差为一个标量,更容易在RL算法中使用。由于一个四元数表示三维空间中的一个刚体的姿态,那么认为。如果当前姿态就是期望姿态,那么旋转角度。,单位四元数还具有以下特性,其中。首先,假设末端工具的姿态为。,这个标量即可代表实际姿态。为单位四元数的共轭。distance,使用。总结以上,为求实际姿态。均为三维单位向量,即。原创 2023-04-13 10:58:23 · 2940 阅读 · 5 评论 -
无模型深度强化学习算法
无模型深度强化学习算法可分为两类:一类是直接根据策略梯度更新策略,获得最优策略;一类是通过奖励函数V或Q来评价策略的好坏,在当前状态下选择动作的策略能使agent/actor获得最大的累计奖励就是最好的策略,actor-critic中actor是根据状态选择动作的策略网络,critic是根据状态/状态+动作评价当前策略优劣的评价网络。原创 2022-12-05 14:58:43 · 1117 阅读 · 0 评论 -
2.4 incremental implementation 增量实现
目前我们所讨论的动作-值评估方法都是采样平均法。现在我们来讨论一个问题,如何在计算机上以一种高效的方式来计算这个奖励的采样平均值,在存储容量固定和连续的分布计算的要求下。为了简化定义,我们集中于一个动作上。令表示第i次选择后的这个动作的奖励,令表示这个动作被采样了n-1次后这个动作的值,这里我们把它简写成如下形式:一种显而易见的计算方法是,记下来所有奖励,然后在每次需要预估动作a的时候...原创 2019-04-30 18:01:22 · 782 阅读 · 0 评论 -
2.3 The 10-armed Testbed 10摇臂老虎机试验台
为了粗略获得贪心算法和贪心算法的相对有效性,我们通过一系列的数值测试来比较两者的优劣。本实验台包含2000个随机生成的k摇臂老虎机问题,其中k=10。如图2.1所示是其中之一,每个k摇臂问题生成的10个动作的值,, a = 1,...,10, 是从一个均值为0,方差为1的正态/高斯分布中选取出来的10个数。然后,当一个学习算法应用这个问题上,并在时刻t时选择动作,其动作的真实奖励,是从一个均值...原创 2019-04-30 14:50:18 · 758 阅读 · 5 评论 -
2.2 Action-value Method 动作-值方法
我们先来了解一些简单的用于估计动作值,和如何用估计值来选择动作的方法。估计动作值:采样平均法。回顾一下:值是什么?一个动作的真实值是当这个动作被选取了,我们获得的奖励的平均值。那么自然而然,一种估计动作值的方法就是用当前获得的奖励的平均值来表示真实值:,其中表示采取了a动作则等于1,否则等于0. 如果分母为0,则设其为一个默认值,比如0。随着分母逐渐趋于无穷大,根据大数定理,最终收...原创 2019-04-29 18:48:36 · 1165 阅读 · 1 评论 -
2.1 A k-armed Bandit Problem
考虑如下问题:有k个不同的选择(或者说动作)摆在你的面前,你需要不断重复地选择其中一个,每次你选择其中一个之后,会根据你选择的动作给你一个数值奖励,这个数值奖励符合正态分布。你的目标是在经过一定的次数后,比如1000次后,获得的期望奖励之和最大。这就是原始形式的K摇臂游戏机问题,以模拟一种投币游戏机命名,它是只有一个摇臂的,而不是k个摇臂。每次选择一个动作就像拉下游戏机上的某个摇臂(拉杆),奖...原创 2019-08-29 18:03:26 · 1266 阅读 · 0 评论 -
2 强化学习——Multi-armed Bandits
The most important feature distinguishing reinforcement learning from other types of learning is that it uses training information that evaluates the actions taken rather than instructs by giving corr...原创 2019-04-29 14:51:07 · 489 阅读 · 0 评论 -
我的第一个增强学习代码(敲弱智的)
#假设一个具有9个元素的一维数组,nimo位于第6位(索引从0开始)#下面用增强学习的思想来让agent找到nimo,并输出是第几步找到的nimo,以及获得的奖励#本例不涉及到对策略的优化,只是采取keci-贪心算法达到搜寻目的,并不是完整的增强学习算法import numpy as npimport randomdef main(): print ("start lea...原创 2019-03-07 19:06:35 · 297 阅读 · 0 评论 -
multi-arm-bandits问题python代码
假设有k=10个摇臂的老虎机,其奖励分布满足高斯正态分布,每个摇臂对应的正态分布的均值与方差分别为:#the real mean value of each ation's rewardqa_star = np.array([0.2,-0.3,1.5,0.5,1.2,-1.6,-0.2,-1,1.1,-0.6])#the vars of each action's rewardvar_...原创 2019-03-08 17:00:03 · 581 阅读 · 0 评论 -
Bellman Equation 贝尔曼方程
Bellman equation(贝尔曼方程),是以Richard E.Bellman命名,是数值最优化方法的一个必要条件,又称为动态规划。它以一些初始选择的收益以及根据这些初始选择的结果导致的之后的决策问题的“值”,来给出一个决策问题在某一个时间点的“值”。这样把一个动态规划问题离散成一系列的更简单的子问题,这就是bellman优化准则。Bellman equation最早应用于工程控制理论...翻译 2019-02-21 18:15:03 · 15327 阅读 · 3 评论 -
Markov Chain 马尔可夫链
1. 马尔可夫性质对于任意 ,任意,任意状态有比较直观的定义是:令:则马尔可夫性质为:已知到现在为止的所有信息来预测将来,则只与现在状态有关,与过去所有状态都没有关系。2. 马尔可夫链如果是状态离散的随机过程,并且具有马尔可夫性质,则称此随机过程为马尔可夫链(Markov Chain)。将m时刻处于状态i的条件下,到n时刻转移到状态j的转移概率简写成...原创 2019-02-22 17:39:10 · 4544 阅读 · 0 评论