强化学习基本原理
智能体通过动作A与环境进行交互,形成状态S->S’的改变并得到回报R。在不断的交互过程中,强化学习利用交互得到的数据修正自身的动作策略,最终习得该环境下完成相应任务的最优策略。
参考资料
[1] 强化学习入门 第一讲 MDP
预备知识 - 马尔可夫概念
马尔可夫性
马尔可夫性指系统下一状态 S t + 1 S_{t+1} St+1仅与当前状态 s t s_{t} st有关,与以前的状态无关,当前状态可以反映所有历史状态。
公式描述:
P [ s t + 1 ∣ s t ] = P [ s t + 1 ∣ s 1 , s 2 , . . . , s t ] (1.1) P[s_{t+1}|s_t] = P[s_{t+1}|s_1,s_2,...,s_t] \tag{1.1} P[st+1∣st]=P[st+1∣s1,s2,...,st](1.1)
马尔可夫随机过程
随机过程即一组随机变量序列,马尔可夫随机过程指其中的每一个随机变量均具有马尔可夫性,即只与前一个随机变量相关。
马尔可夫过程
马尔可夫过程定义为:二元组(S,P),S为有限状态集合,P为状态转移概率矩阵。
P = [ P 11 ⋯ P 1 n ⋮ ⋱ ⋮ P n 1 ⋯ P n n ] (1.2) P = \left[ \begin{matrix} P_{11} & \cdots & P_{1n} \\ \vdots & \ddots & \vdots \\ P_{n1} & \cdots & P_{nn} \\ \end{matrix} \right] \tag{1.2} P=⎣⎢⎡P11⋮Pn1⋯⋱⋯P1n⋮Pnn⎦⎥⎤(1.2)
马尔可夫链
给定马尔可夫过程(S,P)后,从一状态出发到一状态结束存在多条路径,每条路径为马尔可夫链。
马尔可夫决策过程
马尔可夫决策过程定义为:多元组(S, A, P, R, γ)
其中:
- S为有限状态集合
- A为有限动作集合
- P为状态转移概率
- R为回报函数
- γ为折扣因子
马尔可夫决策过程的状态转移包含概率:
P s s ′ a = P [ S t + 1 = s ′ ∣ S t = s , A t = a ] (1.3) P^{a}_{ss'} = P[S_{t+1} = s'|S_t = s, A_t = a] \tag{1.3} Pss′a=P[St+1=s′∣St=s,At=a](1.3)
理解:
- P s s ′ a P^{a}_{ss'} Pss′a为采取动作a从状态s转移到s’的概率
马尔可夫决策过程与强化学习
强化学习的目标
给定马尔可夫决策过程(S, A, P, R, γ),寻找一组最优策略:
π ( a ∣ s ) =