
强化学习
CharlesPoletoWin
SHU
展开
-
强化学习(1)
强化学习第一讲传统机器学习——有监督学习——回归任务、分类任务无监督学习——无标签——K-means——超像素分割Superpixel,根据色差 像素 等差异性 进行分类传统机器学习不能做什么?实现机器人的特殊舞步AlaphaGo强化学习一般性的框架 学习序列决策任务decision making tasks强化学习还能做什么?管理、控制集群的资源管理智慧城...原创 2019-06-08 19:58:43 · 341 阅读 · 0 评论 -
强化学习(2)
基于序列决策过程基础上马尔克夫决策过程1.强化学习模型构建具体优化什么变量?state 参数更新时和环境交互环境给Agent一个观察,智能体给一个动作,环境给一个reward 再下一个观察…数学化environment将state s0传递给agent,然后action A0,reward R1即S0 A0 R1 S1 A1…对这些序列 即Episode 学习每一次的过程称为Ep...原创 2019-06-08 21:54:31 · 674 阅读 · 0 评论 -
强化学习(6)
RL->DRL深度Q网络1、值函数的近似:对Q表近似2、Deep Q network为什么要把深度学习引入强化学习?自身处于研究的角度,遇到什么问题?在Q-learning中,首先初始化一个Q表,然后通过agent与环境交互采样获得episodes,最后根据Q值迭代直到收敛,得到最优的Q表对于4*4的矩阵 处理是简单的;但如果对于超级玛莉 显然有无数种,因为是连续的,很难列出所...原创 2019-07-02 00:06:40 · 724 阅读 · 0 评论 -
强化学习(3)
建模成马尔可夫决策过程,动态规划方法,一般或者最优策略,对状态转移概率清楚,遍历并选择策略,评价策略好坏,更新策略现实中无法知道环境,不知道状态,不知道概率,对于这类序列决策问题蒙特卡洛学习 Monte-Carlo Prediction目标:Agent Environment寻找最优策略 使得期望Q(S,W)最大化动态规划知道所有环境,我们需要知道环境的一个近似,MC方法从episode...原创 2019-06-29 11:30:25 · 304 阅读 · 0 评论 -
强化学习(4)
强化学习解法1)MDP模型求解,动态规划2)蒙特卡罗学习 采样 根据Q值学习3)持续差分算法TD算法内容:1)时序差分学习(Temporal-Difference Learning)2)Sarsa算法3)总结学过的RL解法DP:model-based 学习方式 需要知道状态转移矩阵;直接计算所有状态动作pair 的Q值或者V值表,然后通过贪心策略获得agent 的策略Monte...原创 2019-06-30 00:30:31 · 235 阅读 · 0 评论 -
强化学习(5)
深度理解强化学习强化学习解法 Q-learning时序差分学习on-policy : 在估计policy和值函数的时候,生成的样本所采用的policy与估计时用的一样的policy 同一策略下确定off-policy 估计policy和值函数时候 生成样本episode所采用的policy与估计时用的是不一样的policyon-policy 一边探索一边学习策略off-policy 两...原创 2019-06-30 11:07:27 · 369 阅读 · 0 评论 -
强化学习(7)
强化学习(7)策略梯度学习强化学习另外一个分支基于环境是否已知,基于策略来分有on、off policy1.策略梯度思想2.Reinforce算法使用基于值函数的学习需要和环境交互,传统普通的 基于Q表,通过对应的target更新方式,采用绝对贪婪策略确定策略。与环境交互得到值函数,输入神经网络再取到Q值比较大的地方,传统的Q-learning和DQN都是通过最优值函数...原创 2019-07-10 21:25:22 · 336 阅读 · 0 评论