Reinforce Learning 基础组件概念

基础的名词概念

该文章为中国Mooc上赵世钰老师的课程,强化学习的数学原理 的课程笔记。

state

状态(state),指的是智能体对于外界环境相关的特性,通常使用 S S S表示。具体的状态,比如:

  1. 智能体的位置(x, y, z)
  2. 智能体的速度(vx,vy,vz)

state space: 指的是state的集合。
S = { S i } i = 1 n S = \{S_{i}\}_{i=1}^{n} S={ Si}i=1n
S S S代表状态, { S i } \{S_{i}\} { Si}代表状态的集合, i i i代表第 i i i个状态,n为状态的总数量。

Action

行为,一般用 a i a_{i} ai表示。
Action space of a state,指的是在一个时刻所有可能的行为的集合。
A { S i } A\{S_{i}\} A{ Si} = { a i } i = 0 n \{a_{i}\}_{i=0}^n { ai}i=0n
A { S i } A{\{S_{i}\}} A{ Si}代表在状态 S i S_{i} Si时的行为集合。 { a i } \{a_i\} { ai}代表在状态 i i i时的行为。

State transition

指智能体经过行为 a a a之后从上一个状态进入到下一个状态的过程。这个过程定义了智能体与环境的互动与接触。
利用概率公式来表达这一过程:
P ( S 2 ∣ S 1 , a 1 ) = 0.5 P(S_2|S_1, a_1)=0.5 P(S2S1,a1)=0.5
P ( S 3 ∣ S 1 , a 2 ) = 0.5 P(S_3|S_1, a_2)=0.5 P(S3S1,a2)=0.5

?表示在状态 S 1 S_1 S1采取 a 1 a_1 a1进入状态 S 2 S_2 S2的概率有50%,在 S 2 S_2 S2采取行为 a 2 a_2 a2进入状态 S 3 S_3 S3的概率有50%。
?表示在状态 S 1 S_1 S1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值