多智能体强化学习(三)单智能体强化学习
通过试验和错误,一个RL智能体试图找到最佳的策略,以最大化其长期回报。该过程由马尔可夫决策过程表示。
1. 问题制定:马尔可夫决策过程
定义1(马尔可夫决策过程)一个MDP可以用一个由关键元素 < S 、 A 、 P 、 R 、 γ > <\mathbb{S}、\mathbb{A}、P、R、γ> <S、A、P、R、γ>组成的元组来描述。
- S : \mathbb{S}: S: 一组环境状态。
- A : \mathbb{A}: A: 智能体可能执行的操作的集合。
- P : S × A → ∆ ( S ) : \mathbb{P}:\mathbb{S}× \mathbb{A}→∆(\mathbb{S}): P:S×A→∆(S):对于每个时间步骤t∈N,给定代理的动作为∈A,从状态 s ∈ S s_∈\mathbb{S} s∈S到状态在下一个时间步骤 s ′ ∈ S s'∈\mathbb{S} s′∈S中的转换概率。
- R : S × A × S → R : R:\mathbb{S}×\mathbb{A}×\mathbb{S}→\mathbb{R}: R:S×A×S→R:奖励函数,返回从s到s’的标量值。奖励的绝对值一致受 R m a x R_{max} Rmax为界。
- γ ∈ [ 0 , 1 ] γ ∈ [0, 1] γ∈[0,1] 是表示时间值的折扣系数。
在每个时间步长t中,环境都有一个状态 s t s_t st。智能体观察此状态,并在上执行操作。该操作使环境转换到下一个状态 s t + 1 ∼ P ( ⋅ ∣ s t , a t ) s_{t+1}∼P(·|s_t,a_t) st+1∼P(⋅∣s