人工智能之强化学习基础

强化学习入门

人工智能参考书理论将机器人对环境的观测O与状态S等同。

模型:机器与环境交互改变状态的规律。
Pss′a=P(St+1=s′∣St=s,At=a)Rsa=E[Rt+1∣St=s,At=a] P^a_{ss'}=P(S_{t+1}=s'|S_t=s,A_t=a)\\ R^a_s = E[R_{t+1}|S_t=s,A_t=a] Pssa=P(St+1=sSt=s,At=a)Rsa=E[Rt+1St=s,At=a]

Pss′aP^a_{ss'}Pssa是一个概率分布,可用表格描述。

策略:机器所有可能做出的动作。
a=π(s∣θ) a=\pi(s|\theta) a=π(sθ)

另一种表达,
π(a∣s)=P[At=a∣St=s] \pi(a|s)=P[A_t=a|S_t=s] π(as)=P[At=aSt=s]

在一时间片的状态(state)StS_tSt,采取的行动(action)AtA_tAt,获取的奖励为(reward)RtR_tRt

如何求得好的策略

直接法:求奖励或收益的期望并选择最大化。求不同策略在未来不同时间片下总收益的期望。
E[R(π(a∣s)∣s)]=∑i=1NR(a∣si)π(a∣si)P(si) E[R(\pi(a|s)|s)]=\sum_{i=1}^N R(a|s_i)\pi(a|s_i)P(s_i) E[R(π(as)s)]=i=1NR(asi)π(asi)P(si)

间接法:将策略在未来不同时间片的收益都贴现到当下,类似人的贴现心理,计算收益。
值函数
vπ(s)=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s] v_{\pi}(s) = E_{\pi}[R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+...|S_t=s] vπ(s)=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]

马尔科夫决策 Markov Decision Process
  • 状态转移

类似运动方程

  • 策略与评价
    状态估值与动作估值
    vπ(s)=∑a∈Aπ(a∣s)qπ(s,a)qπ(s,a)=Rsa+γ∑s′∈SPss′avπ(s′) v_{\pi}(s)=\sum_{a\in A}\pi(a|s)q_{\pi}(s,a)\\ q_{\pi}(s,a)=R^a_s+\gamma \sum_{s'\in S}P_{ss'}^av_{\pi}(s') vπ(s)=aAπ(as)qπ(s,a)qπ(s,a)=Rsa+γsSPssavπ(s)

我认为有限条件下估计状态是有一定随机性的,如两个人或组织、国家谈判或博弈,是在猜测对方的状态和策略,观测输入不充分或过多、噪声影响、先验等等错误估计或误判,并非最优甚至负结果。如果能开放心态,求同存异,排除干扰,充分沟通,尽量减少偏见或误判,决策才能更好。

一个策略会在长期获得变化的正负奖励,可能下一时间段的奖励很大,而下下一段的奖励为负;因此决策应考虑一定长度的时间,多长才是合理的?

计算必须是有限的;Markov假设,另一方面,哲学问题,当下的决策似有非有影响未来,有的显著,有的潜在,有的基本没有。
参考Mobileye的Responsibility-Sensitive Safety模型中决策方法。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值