
强化学习
文章平均质量分 64
RL
Coder_Jh
人们常说,博士与博士之间的差距比人与狗之间的差距还大。而遗憾的是,我就是混在众多优博中的那只dog。但求毕业~
展开
-
强化学习中的重要性采样(Importance Sampling)
转自:强化学习中的重要性采样(Importance Sampling) - 知乎转载 2022-04-02 20:27:58 · 1033 阅读 · 1 评论 -
深度强化学习中带有阴影的曲线是怎么画的?
记录学习一下:1.强化学习论文里的训练曲线是用什么画的?如何计算相关变量 - 深度强化学习实验室2. 论文中画带标准差阴影的曲线图:seaborn.lineplot()_条件反射104的博客-优快云博客原创 2022-03-17 19:36:53 · 6727 阅读 · 0 评论 -
关于KL散度的一点记录
1.首先按顺序弄清以下概念:概率,信息,信息熵,交叉熵,相对熵(KL散度),可以参考: KL-Divergence详解 - 知乎2.信息熵中log的底数一般是2,但一般在神经网络中,默认以ee为底,这样算出来的香农信息量虽然不是最小的可用于完整表示实践的比特数,但对于信息熵的含义来说是区别不大的,只要这个底数大于1,就可以表达信息熵的大小。可以参考: 信息熵与相对熵(KL散度) - 知乎3.KL散度的作用:用于衡量两个概率分布间的差异。信息论中,KL散度等价于...原创 2022-02-24 11:01:35 · 1810 阅读 · 0 评论 -
DDPG或TD3算法训练时总是输出边界值问题记录
最近在使用stable-baselines3框架中的DDPG算法时,发现一个问题:只要算法探索步数达到learning_starts,一开始学习,actor网络很快就会输出动作边界值,然后就保持不变,一直输出同样的边界值。后来换了TD3,发现也会出现这个问题,于是就上网查找解决方案,发现很多人都有这个问题,但是都没解决。下面我从自己的经验出发,结合网上其他人的分析,给出造成这个问题可能的原因以及解决方案:1.如果你的actor网络输出使用tanh函数,那么一个很大的可能性就是预激活变量(输入tanh的)原创 2021-12-18 12:01:37 · 11090 阅读 · 29 评论 -
安装Pytorch后torch.cuda.is_available()返回False问题解决
首先说几点安装Pytorch时需要注意的点:1.如果有能力,最好在科学上网后,利用类似如下命令直接安装:conda install pytorch torchvision torchaudio cudatoolkit=11.3这里注意:上述命令行最后没有-c pytorch,这点与官网的不一样,官网给出的是这样的:加上-c pytorch的意思好像是从清华源下载~~2.如果能力不足,无法科学上网,则需要手动切换镜像源了,比如切换清华源:conda config --add .原创 2021-10-26 16:21:48 · 22234 阅读 · 21 评论 -
记录下与控制相关的一些问题
滚动时域控制(或者叫滚动时域优化),英文为receding horizon control(RHC),又称为模型预测控制(Model Predictive Control,MPC),能有效解决多优化目标及约束问题,并能弥补模型失配、时变、干扰等引起的不确定性。 总结:RHC和MPC说的是一种方法!!!...原创 2021-06-23 15:15:52 · 846 阅读 · 1 评论 -
关于P、NP、NPC、NP-Hard问题的一点理解
相信经常看论文的科研人,对NP-Hard这个词都不陌生,特别是计算机专业的小伙伴。每次见都感觉对NP-Hard不太熟,认识有点模糊,于是花时间查了下资料,记录下一点认识。原创 2021-06-09 16:42:17 · 836 阅读 · 0 评论 -
强化学习动态规划之策略迭代&价值迭代
在强化学习中,当环境模型已知时(也即环境状态转移概率和奖励已知),可以采用动态规划的思想来解决强化学习问题,常用的有策略迭代算法和值迭代算法两种,以下展开具体介绍。1.动态规划与强化学习的联系动态规划相信大家都不陌生,很多算法都会使用到它。动态规划(Dynamic Programming,DP)是一种将复杂问题简单化的思想,而不是指某种具体的算法。DP算法通过把复杂问题分解为子问题,通过求解子问题进而得到整个问题的解。在解决子问题的时候,其结果通常需要存储起来被用来解决后续复杂问题。一个复杂问.原创 2021-05-20 11:02:47 · 5746 阅读 · 0 评论 -
强化学习入门过程中遇到的问题记录
1.对于不同的初始状态,最优策略都是同一个,还是说会有不同的最优策略?例如对于起始状态s1,假设最优策略为Π,也就是说采用Π会使状态值函数v(s1)最大;那么对于不同的起始状态s2,Π是否仍是最优策略?个人认为对于不同起始状态,最优策略应该不一定相同。不定期更新,欢迎大神解答~~...原创 2021-05-18 17:10:32 · 1071 阅读 · 0 评论 -
有关强化学习中策略空间大小问题的一点思考
刚入门强化学习,在看书时碰到了如下描述:上面两图分别是周志华老师的西瓜书以及邱锡鹏老师的《神经网络与深度学习》中,关于强化学习中策略空间的一段描述,而我对于这里产生了疑问,为什么策略空间的大小不是A×S呢?策略不就是状态到函数的映射吗?于是最开始我的计算过程如下:嘿,奇怪了,我算出来的是6啊,也就是A×S,咋跟书上不一样?两位大佬写错了?思索之后,感觉应该是我不太机敏,没有领会到大佬们的意思。于是多方求助,最终取回真经,真经如下:如有理解有误之处,还望指正~...原创 2021-05-15 12:10:17 · 587 阅读 · 0 评论 -
深度强化学习发展现状及展望:万字总结解读83篇文献
深度强化学习是深度学习与强化学习相结合的产物,它集成了深度学习在视觉等感知问题上强大的理解能力,以及强化学习的决策能力,实现了端到端学习。深度强化学习的出现使得强化学习技术真正走向实用,得以解决现实场景中的复杂问题。从2013年DQN(深度Q网络,deep Q network)出现到目前为止,深度强化学习领域出现了大量的算法,以及解决实际应用问题的论文,本文将阐述深度强化学习的发展现状,并对未来进行展望。一、深度强化学习的泡沫2015 年,DeepMind 的 Volodymyr Mnih 等研究员在.转载 2021-05-08 11:11:40 · 12182 阅读 · 0 评论 -
强化学习术语简介
state:对于环境(世界)的一个完整的描述observation:对于state的部分描述,即可能会省略掉部分信息在深度强化学习中,通常用实值向量、矩阵或高阶张量来表示state和obversation。例如,一个视觉观察可以用其像素值的RGB矩阵表示;机器人的状态可以用关节角和速度来表示。当agent能够观察到环境的完整状态时,我们就说环境被完全观察到了(fully observed)。当agent只能看到部分观察结果时,我们说环境被部分观察到了(partially observed)。翻译 2021-05-06 21:58:10 · 1093 阅读 · 0 评论 -
序贯决策的理解
序贯决策(Sequential Decision):又可以叫顺序决策、序列决策,意思就是按时间顺序进行一系列决策,是一种动态的决策方式,可用于随机性或不确定性动态系统最优化。我们熟悉的马尔可夫决策问题就属于序贯决策问题,由此可知,强化学习就可以用于解决序贯决策问题。下面附上另一篇文章的内容:序列决策任务可以表示为以下形式:一个决策代理(decision agent)与离散的时间动态系统进行迭代地交互。 在每个时间步的开始时,系统会处于某种状态。基于代理的决策规则,它会观察当前的状态,..原创 2021-03-22 20:34:10 · 9566 阅读 · 0 评论