强化学习
文章平均质量分 89
简单了解强化学习基础
吨吨不打野
不要慌,不要慌,太阳落下有月光
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
强化学习——股票预测项目复现
1.背景介绍之前学习百度强化学习7日打卡营-世界冠军带你从零实践时候,最后留下的一个大作业是股票预测环境:https://github.com/kh-kim/stock_market_reinforcement_learning,由于给出的一个推荐github项目是四年前,时间太久远,所以找了另一个,还是中文的,而且步骤看起来很详细。❤github项目地址:https://github.com/wangshub/RL-Stock所以在经历失败的复现:https://github.com/forrest原创 2021-01-28 10:53:34 · 9003 阅读 · 8 评论 -
强化学习PARL——1. 简单认识
这个教程参考的是百度PaddlePaddle的RL系列教程:https://aistudio.baidu.com/aistudio/projectdetail/1445501背景介绍第一章节属于基础内容,第二课的数学知识总结的很好1. 开始1.1 概念认识1.1.1 强化学习 vs 其他强化学习与监督学习的区别强化学习、监督学习、非监督学习是机器学习里的三个不同的领域,都跟深度学习有交集。监督学习寻找输入到输出之间的映射,比如分类和回归问题。非监督学习主要寻找数据之间的隐藏关系,比如聚原创 2021-01-12 11:47:05 · 6995 阅读 · 10 评论 -
强化学习莫凡python——一些补充
1. RL分类model-free方法:对环境不了解,每次行动只能等环境的反馈才可以进行下一步model-based方法:由于已经对环境有一定的了解,所以每次在执行行动的时候可以预先想象到之后环境的反馈,来更好指导自己的决策。对环境的了解主要体现在:环境的奖励、环境的一些状态转移概率,这些内容是否已知基于概率的方法输出的是每个动作的概率,这时每个动作都有可能被选到基于价值的方法输出的每个动作的价值,这时只会选到价值最大的动作对于动作空间是连续值的场景来说,基于价值的方法是无能为力原创 2021-01-28 10:54:04 · 1068 阅读 · 0 评论 -
强化学习PARL——4. 基于策略梯度方法求解RL
基于价值的策略是一般是先计算出价值(比如Q 状态动作价值),根据价值去决定策略Value-based的算法的典型代表为Q-learning和SARSA,将Q函数优化到最优,再根据Q函数取最优策略。基于策略的则不再计算价值,直接输出动作概率,动作的选择不再依赖于价值函数,而是先根据一个策略走到底,最后根据最终的收益决定这个策略的好坏Policy-based的算法的典型代表为Policy Gradient,直接优化策略函数。第一个区别:基于价值的,是先求出最优的Q,然后去间接得到ac..原创 2021-01-19 17:44:09 · 692 阅读 · 0 评论 -
强化学习PARL——3. 基于神经网络方法求解RL
1. 背景知识由于Q表格无法应对状态过多的问题,所以这里提出值函数近似这一方式DQN两大创新点:经验回放:充分列用off-policy(样本所带来的经验不是立马更新到Q表格的,而是经过一个策略,所以像离线更新一样,)每隔一段时间,更新一下2. DQN算法DQN的算法其实很简单,引入神经网络来得到Q3. DQN代码Parl实现可以看到,这里输入一个 obs(状态/观测值)经过一个简单的3层全连接网络输出act_dim个向量(每个向量应该是128维的。。。)也就原创 2021-01-19 15:09:23 · 994 阅读 · 6 评论 -
强化学习PARL——2. 基于表格型方法求解RL
1. Sarsa全称是:state action reward state action原创 2021-01-19 09:17:45 · 657 阅读 · 0 评论 -
强化学习PARL——5. 基于连续动作空间上方法求解RL及大作业
个人理解:离散:可数(整数表示的)连续:不可数(小数/浮点数表示的)这里一共有四个网络,Q网络以及它的target_Q网络,策略网络以及它的target_P网络,两个target是为了稳定计算,每隔一段时间复制一下参数,投入到评估网络使用。target_Q是为了稳定计算Q_target中的Qwˉ(s′,a′)Q_{\bar{w}}(s^{'},a^{'})Qwˉ(s′,a′),而其中的a′=μθ(s′)a^{'}=\mu_{\theta}(s^{'})a′=μθ(s′)则是.原创 2021-01-20 14:17:02 · 876 阅读 · 0 评论 -
强化学习常见案例
入门强化学习的时候,看到许多教程都给了很多强化学习的例子,有些是视频,有些是线上一些可以自己改参数看效果的游戏,这里做一个归类整理有趣的强化学习视频小红小蓝捉迷藏的链接: https://openai.com/blog/emergent-tool-use/相应的视频应该是来自b站,(直接搜索emergent-tool-use 也会有很多类似的视频)【AI捉迷藏】初代天网?[中文字幕] Multi-Agent Hide and Seek 红球绿球链接:https://github.com/Padd原创 2021-01-28 16:58:34 · 6867 阅读 · 1 评论
分享