Reinforce Learning 基础
基础的名词概念
该文章为中国Mooc上赵世钰老师的课程,强化学习的数学原理 的课程笔记。
state
状态(state),指的是智能体对于外界环境相关的特性,通常使用 S S S表示。具体的状态,比如:
- 智能体的位置(x, y, z)
- 智能体的速度(vx,vy,vz)
state space: 指的是state的集合。
S = { S i } i = 1 n S = \{S_{i}\}_{i=1}^{n} S={
Si}i=1n
S S S代表状态, { S i } \{S_{i}\} {
Si}代表状态的集合, i i i代表第 i i i个状态,n为状态的总数量。
Action
行为,一般用 a i a_{i} ai表示。
Action space of a state,指的是在一个时刻所有可能的行为的集合。
A { S i } A\{S_{i}\} A{
Si} = { a i } i = 0 n \{a_{i}\}_{i=0}^n {
ai}i=0n
A { S i } A{\{S_{i}\}} A{
Si}代表在状态 S i S_{i} Si时的行为集合。 { a i } \{a_i\} {
ai}代表在状态 i i i时的行为。
State transition
指智能体经过行为 a a a之后从上一个状态进入到下一个状态的过程。这个过程定义了智能体与环境的互动与接触。
利用概率公式来表达这一过程:
P ( S 2 ∣ S 1 , a 1 ) = 0.5 P(S_2|S_1, a_1)=0.5 P(S2∣S1,a1)=0.5
P ( S 3 ∣ S 1 , a 2 ) = 0.5 P(S_3|S_1, a_2)=0.5 P(S3∣S1,a2)=0.5
?表示在状态 S 1 S_1 S1采取 a 1 a_1 a1进入状态 S 2 S_2 S2的概率有50%,在 S 2 S_2 S2采取行为 a 2 a_2 a2进入状态 S 3 S_3 S3的概率有50%。
?表示在状态 S 1 S_1 S1