- 博客(4)
- 收藏
- 关注
原创 强化学习(4):策略梯度Policy Gradient算法
本章内容主要参考了UC Berkeley Deep RL Bootcamp的内容,由作者按照自己的理解整理而成 终于到Policy Gradient方法了! 一、引言 reinforcement learning研究的是智能体agent与环境environment进行交互,在交互的过程中学习的问题,RL的根本目的是进行策略的优化,希望最终能够获得最优秀的策略。策略(policy)指的就是一个函数,输入一个当前状态state,输出一个动作action(的分布),相当于给agent指明了一条路线,告诉agent
2021-11-13 09:16:29
719
原创 强化学习(3):DQN及其变式
本章内容主要参考了UC Berkeley Deep RL Bootcamp的内容,由作者按照自己的理解整理而成 本讲讨论著名的DQN算法(Deep Q-Networks Algorithm) 一、对Q-Learning的简单复习 对于参数化后的Q函数Qθ(s,a)Q_\theta(s,a)Qθ(s,a),其自变量是当前所在的状态与进行的动作的组合,函数值代表这种组合对应的奖励值的大小。在进行学习迭代更新的时候采用逐步更新,逼近target的方式进行处理,其中target代表使用greedy方法,利用当前第
2021-11-13 09:11:15
1349
原创 强化学习(2):基于采样的model-free近似和拟合学习
本章内容主要参考了UC Berkeley Deep RL Bootcamp的内容,由作者按照自己的理解整理而成 一、Sampling-Based Approximation 本篇文章主要研究基于采样的估计行为,作为一种统计意义上的操作,采样被普遍认为是机器学习中相当有用模拟统计量的一个手段,无论是在路径规划还是在什么一些别的领域,sample都是非常有用的~ 1. 回顾一下Q(s,a)Q(s,a)Q(s,a)函数 Q(s,a)Q(s,a)Q(s,a)被称为Q函数,也是RL中常用的一种价值函数,不同于状态价值
2021-11-13 08:56:44
982
原创 强化学习(1):问题的概述和基本方法
强化学习(1):问题的概述和基本方法 本章内容主要参考了UC Berkeley Deep RL Bootcamp的内容,由作者按照自己的理解整理而成 一、介绍和Markov Decision Process Markov Decision Process(马尔科夫决策过程)指的是一种随机过程,是强化学习最重要的理论基础之一。简单的说,马尔科夫决策过程中最重要的对象有两个,一个是Agent,另一个是Environment。在强化学习的过程中,Agent和Environment不断进行互动,信息相互流动,互
2021-11-13 08:41:55
281
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人