强化学习

xpc_buaa

于 2019-04-30 19:43:26 发布

阅读量185

点赞数

CC 4.0 BY-SA版权

分类专栏：强化学习文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/xiadimichen14908/article/details/89714967

强化学习专栏收录该内容

1 篇文章

订阅专栏

强化学习Lec_1

Sequential Decision Making

Sequential Decision Making

在这里插入图片描述
类似一个反馈系统
Agent 是执行机构如机器人
observation是agent的观察
Action 是Agent能够采取的动作反应
Reward是环境给出的反馈

Markov Assumption

State $S_t$ is Markov if and only if : $p(s_{t+1}|s_t,a_t) = p(s_{t+1}|h_t,a_t)$
未来的状态只与当前时刻的状态 $S_t$ 有关, 而与过去的状态 ${S1, ... , S_{t-1}\}$ 无关

Full Observability : Markov Decision Process(MDP)
Partial Observability: Partially Observable Markov Decision Process(POMDP)

Sequential Decision Process

Deterministic(决定性）
Stochastic(概率性）

强化学习算法通常有：
Model:表示环境对agent的action如何反应
Policy: 将agent的状态映射到action的函数
Value function: 在某个确定的policy下，在当前state和action下未来的收益

model

transition / dynamic model预测agent下一个状态
$p(s_{t+1}=s^{'}|s_t=s,a_t=a)$
reward model预测immediate reward
$r(s_t=s,a_t=a) = E[r_t|s_t=s,a_t=a]$

policy

Policy $\pi$ 决定了agent遵循何种规则，选择action

Deterministic policy(确定性的)
$\pi(s) = a$
stochastic policy(概率性）
$\pi(a|s) = Pr(a_t=a|s_t=s)$

value

value function $V^{\pi}$
在某个具体的policy $\pi$ 下，未来reward的期望
$V^{\pi}(s_t = s) = E_{\pi}[r_t+\gamma r_{t+1}+\gamma^2r_{t+2}+\gamma^3r_{t+3}+...|s_t]$
$\gamma$ 衡量即刻的reward和未来的reward
能够评价state和action的好坏
通过比较不同的policy来决定如何act

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。