
强化学习
强化学习
星海千寻
学习使我快乐,每天进步一点点,夯实基础,足够努力,未来定可期。缓慢而坚持地学习,
花一年的时间蜕变,他日剑指长虹。
展开
-
强化学习《基于策略&价值 - Pathwise Derivative Policy Grident》
一:算法介绍二:训练过程三:和Q-Learning训练的具体算法的不同Q-Learning的方式本算法的改动原创 2020-12-03 00:31:45 · 420 阅读 · 0 评论 -
强化学习《基于策略&价值 - Asynchronous Adventage Actor-Critic》
继续学习Asynchronous Advantage Actor-Critic (A3C)一:原理强化学习有一个问题就是训练过程很慢,为了解决这个问题就可以使用A3C算法。A3C的原理也很简单——既然一个actor训练速度慢,那就开多个actor,最后这些actor会把各自学到的经验集合起来,这样就实现数倍的训练速度。这个也算是很朴实的想法了,并行训练。训练过程就是如下:每个worker从global network复制参数不同的worker与环境去做互动不同的worker计算出各自的g原创 2020-11-30 16:27:49 · 328 阅读 · 1 评论 -
强化学习《基于策略&价值 - Adventage Actor-Critic》
本文继续学习Advantage Actor-Critic(A2C)一:原理二:计算三:计算上的tip1:共享网络参数2:对actor的输出进行限制原创 2020-11-30 16:14:39 · 488 阅读 · 0 评论 -
强化学习《基于策略&价值 - Actor-Critic》
一:回顾一下1:Policy Grident2:Q-learning二:Actor-Critic原创 2020-11-29 23:26:56 · 741 阅读 · 1 评论 -
强化学习《基于价值 - DQN其他细节算法》
一:优先级回放(Prioritized Experience Replay)二:Multi-step: Combination of MC and TD三:Noisy Net原创 2020-11-29 20:38:15 · 186 阅读 · 0 评论 -
强化学习《基于价值 - Dueling Q-Learning》
和前面所讲的各种DQN算法不同,Dueling DQN将整个模型结构分成了两个部分,一个为状态值函数V,一个为优势函数A式子如下:考虑到具体参数W是公共部分的网络参数,α是V网络的参数,β是A网络的参数。Dueling DQN中,输出结果变成Q=V+A,因为有时候在某种state,无论做什么动作,对下一个state都没有多大的影响,所以将Q-function分解为两部分。比如,在一个好的state,无论做什么action,都能得到很高的value;在一个很差的state,无论做什么action原创 2020-11-29 20:12:42 · 521 阅读 · 0 评论 -
强化学习《基于价值 - Double Q-Learning》
原创 2020-11-29 03:25:18 · 433 阅读 · 0 评论 -
强化学习《基于价值 - Q-Learning》
三:完整计算过程如下:翻译下就是:原创 2020-11-29 01:16:54 · 425 阅读 · 0 评论 -
强化学习《基于价值 - MC方法和TD方法》
这一期的RL学习全是学习自李宏毅老师的教程,在自己多次学习后,自以为比较能理解后,才写下来了的。因此很多截图呢直接来自李宏毅老师的截图,很多地方我就不亲自写式子了。本文讲解Value-Based的方法。一:基本介绍我们之前在policy-based中学习的是一个Actor,也就是输入一个S,输出一个Action(各个Action的概率,取最大概率的Action)。现在我们是 value-based 的方法,那么就是要去学习一个critic,它不直接采取行动,它是对现由的Actor做出好坏的评价。原创 2020-11-29 01:00:02 · 634 阅读 · 0 评论 -
强化学习《基于策略 - PPO,TRPO,PPO2》
在上一篇博客最后,我们说到了θ和θ^k是不能差太多的,不然结果会不好,那么怎么避免它们差太多呢?这就是这一篇要介绍的PPO所在做的事情。1:PPO1算法:2:TRPO算法3:PPO2算法原创 2020-11-28 07:27:56 · 625 阅读 · 0 评论 -
强化学习《基于策略 - on plolicy - off plolicy》
我们先前学习的policy grident是on-policy。on-policy就是Actor既要去学习(更新参数)也要去和环境做交互收集data,且data只被用一次就丢掉了,这样的坏处就是其实大部分时间都去做了交互了,更新参数很快啊,而交互,得到数据的过程是很慢的,总的来说,效率不高。off-policy就是分成两个Actor,一个Actor专门学习,另外一个跟自己很像的Actor专门和环境做交互,收集data。直观理解就是:On-policy:相当于你在打游戏,你在实战中变强。Off-po原创 2020-11-28 07:12:51 · 271 阅读 · 0 评论 -
强化学习《基于策略 - Policy Grident》
之前学习了机器学习,深度学习,NLP,都是均有涉猎,也不是贪心不足,而是保持着对新奇领域的好奇心,不断去学习,看看是啥样子的,最近看了李宏毅老师的教学视频,感觉哈,要学习的东西好多,AI领域太广泛了。不过,千里之行始于足下,Bettr late than never。希望能得出其中的一些精髓性的东西来,跨领域会带俩不一样的思路哦。一:强化学习(Reinforcement Learning)简单的一句话就是,我们有一个Actor π,会从环境Environment观测到状态State(s),采取一原创 2020-11-28 03:43:55 · 1082 阅读 · 0 评论