
强化学习
文章平均质量分 89
Nosimper
这个作者很懒,什么都没留下…
展开
-
强化学习纲要(周博磊) | 4、价值函数近似
Introduction on function approximation 问题引入:大规模的MDP问题如何估计价值函数? 答:在面对大规模 MDP 问题时,要避免用table去表示特征(Q-tabel等),而是采用带参数的函数近似的方式去近似估计V、Q、π 如果我们获得了实际的价值函数(Oracle),就可以用梯度下降方法更新 w 参数 Value function approximation for prediction 如果已知Oracle/Ground Truth/Vπ (s): 如果原创 2021-09-21 17:03:54 · 276 阅读 · 0 评论 -
强化学习纲要(周博磊) | 3、Model-free的价值函数估计和控制
Model free prediction and control 背景: 在前面的policy iteration和value iteration过程中,R和P都是假设已知的,但在实际情况种,这两个都往往是未知的或者是太复杂规模太大难以建模的。 Policy Iteration: Value iteration: Model-free Prediction 在不知道MDP model时,我们只能采用Model-free的Rl将agent与环境交互,不断获得环境数据并估计状态价值。 获得数据将建模成原创 2021-09-21 17:03:17 · 207 阅读 · 0 评论 -
强化学习纲要(周博磊) | 2、马尔可夫决策过程
Markov Chain→ Markov Reward Process (MRP)→ Markov Decision Processes (MDP) 马尔可夫链 状态转移序列满足马尔可夫(马尔可夫链性质):下一状态只取决于当前状态,和之前的状态不相关。 描述了状态转移之间的关系,可以用状态转移矩阵表示状态变换的概率。 马尔可夫的例子: 每步概率都是0.4,0.4,0.2的概率分布 马尔可夫奖励过程(MRP) 马尔可夫奖励过程(MRP)即在马尔可夫过程中多一个奖励函数,当达到某一状态时将得到什么样的奖原创 2021-09-21 17:02:42 · 323 阅读 · 0 评论 -
强化学习纲要(周博磊) | 1、强化学习纲要
周博磊老师课程: https://www.bilibili.com/video/BV1LE411G7Xj?from=search&seid=16640883969039274910&spm_id_from=333.337.0.0 Github代码: https://github.com/cuhkrlcourse/RLexample 强化学习 什么是强化学习: 智能体从环境中获得样例不断学习,获得样例后不断更新优化自己的模型参数,并利用模型来指导下一步的行为action,不断迭代后使得模.原创 2021-09-21 17:01:43 · 377 阅读 · 0 评论