强化学习-笔记

虾米小飞

于 2020-12-07 20:41:08 发布

阅读量241

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/FengKuangXiaoZuo/article/details/110489136

版权

机器学习专栏收录该内容

3 篇文章

订阅专栏

Q-learning VS. Sarsa

Q-learning更新公式 (off-policy)：
$Q(s,a)=Q(s,a)+\alpha(r+\gamma \max_{a'}Q(s',a')-Q(s,a))$
更新状态 $s = s^{'}$ .
Sarsa更新公式 (on-policy)：
$Q(s,a)=Q(s,a)+\alpha(r+\gamma Q(s',a')-Q(s,a))$
更新状态 $s = s^{'}$ ，动作 $a = a^{'}$ .

李宏毅强化学习

github李宏毅深度学习笔记

Policy based --> Learning an actor -->代表是 Policy Gradient
Value based --> Learning a critic --> 代表是 Q-learning

Policy Gradient

目标：调整actor的参数θ，最大化R的期望

Off-policy (PPO方法)

为了重复利用数据

PPO (Proximal Policy optimization)为了解决θ与θ’别太不一样的问题

Deep Q-learning

2020.12.09放弃了David Silver的课

马尔克夫决策过程

Markov Process

没reward，没action，
只有状态S 和状态转移矩阵P， $< S, P >$

Markov Reward Process

加reward
需要奖励函数R 和折扣因子 $\gamma$ ， $<S,P,R,\gamma>$
奖励函数R只表示出当前状态的奖励（即时奖励）
目标：最大化累计奖赏 $G_t= R_{t+1}+\gamma R_{t+2}+...$
Value function: $v(s)=E[G_t|S_t=s]$ 就是 $G_t$ 的期望。

Markov Decision Process

加决策（动作） $A$ ， $<S,P,A,R,\gamma>$

动态规划

Problem	Bellman Equation	Algorithm
Prediction	Bellman Expectation Equation	Iterative Policy Evaluation
Control	Bellman Expectation Equation + Greedy Policy Improvement	Policy Iteration
Control	Bellman Optimality Equation	Value Iteration

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。