强化学习入门
人工智能参考书理论将机器人对环境的观测O与状态S等同。
模型:机器与环境交互改变状态的规律。
Pss′a=P(St+1=s′∣St=s,At=a)Rsa=E[Rt+1∣St=s,At=a]
P^a_{ss'}=P(S_{t+1}=s'|S_t=s,A_t=a)\\
R^a_s = E[R_{t+1}|S_t=s,A_t=a]
Pss′a=P(St+1=s′∣St=s,At=a)Rsa=E[Rt+1∣St=s,At=a]
Pss′aP^a_{ss'}Pss′a是一个概率分布,可用表格描述。
策略:机器所有可能做出的动作。
a=π(s∣θ)
a=\pi(s|\theta)
a=π(s∣θ)
另一种表达,
π(a∣s)=P[At=a∣St=s]
\pi(a|s)=P[A_t=a|S_t=s]
π(a∣s)=P[At=a∣St=s]
在一时间片的状态(state)StS_tSt,采取的行动(action)AtA_tAt,获取的奖励为(reward)RtR_tRt;
如何求得好的策略
直接法:求奖励或收益的期望并选择最大化。求不同策略在未来不同时间片下总收益的期望。
E[R(π(a∣s)∣s)]=∑i=1NR(a∣si)π(a∣si)P(si)
E[R(\pi(a|s)|s)]=\sum_{i=1}^N R(a|s_i)\pi(a|s_i)P(s_i)
E[R(π(a∣s)∣s)]=i=1∑NR(a∣si)π(a∣si)P(si)
间接法:将策略在未来不同时间片的收益都贴现到当下,类似人的贴现心理,计算收益。
值函数
vπ(s)=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]
v_{\pi}(s) = E_{\pi}[R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+...|S_t=s]
vπ(s)=Eπ[Rt+1+γRt+2+γ2Rt+3+...∣St=s]
马尔科夫决策 Markov Decision Process
- 状态转移
类似运动方程
- 策略与评价
状态估值与动作估值
vπ(s)=∑a∈Aπ(a∣s)qπ(s,a)qπ(s,a)=Rsa+γ∑s′∈SPss′avπ(s′) v_{\pi}(s)=\sum_{a\in A}\pi(a|s)q_{\pi}(s,a)\\ q_{\pi}(s,a)=R^a_s+\gamma \sum_{s'\in S}P_{ss'}^av_{\pi}(s') vπ(s)=a∈A∑π(a∣s)qπ(s,a)qπ(s,a)=Rsa+γs′∈S∑Pss′avπ(s′)
我认为有限条件下估计状态是有一定随机性的,如两个人或组织、国家谈判或博弈,是在猜测对方的状态和策略,观测输入不充分或过多、噪声影响、先验等等错误估计或误判,并非最优甚至负结果。如果能开放心态,求同存异,排除干扰,充分沟通,尽量减少偏见或误判,决策才能更好。
一个策略会在长期获得变化的正负奖励,可能下一时间段的奖励很大,而下下一段的奖励为负;因此决策应考虑一定长度的时间,多长才是合理的?
计算必须是有限的;Markov假设,另一方面,哲学问题,当下的决策似有非有影响未来,有的显著,有的潜在,有的基本没有。
参考Mobileye的Responsibility-Sensitive Safety模型中决策方法。

被折叠的 条评论
为什么被折叠?



