多智能体强化学习(三)单智能体强化学习

通过试验和错误,一个RL智能体试图找到最佳的策略,以最大化其长期回报。该过程由马尔可夫决策过程表示。

1. 问题制定:马尔可夫决策过程

定义1(马尔可夫决策过程)一个MDP可以用一个由关键元素 < S 、 A 、 P 、 R 、 γ > <\mathbb{S}、\mathbb{A}、P、R、γ> <SAPRγ>组成的元组来描述。

  • S : \mathbb{S}: S: 一组环境状态。
  • A : \mathbb{A}: A: 智能体可能执行的操作的集合。
  • P : S × A → ∆ ( S ) : \mathbb{P}:\mathbb{S}× \mathbb{A}→∆(\mathbb{S}): PS×A(S):对于每个时间步骤t∈N,给定代理的动作为∈A,从状态 s ∈ S s_∈\mathbb{S} sS到状态在下一个时间步骤 s ′ ∈ S s'∈\mathbb{S} sS中的转换概率。
  • R : S × A × S → R : R:\mathbb{S}×\mathbb{A}×\mathbb{S}→\mathbb{R}: RS×A×SR奖励函数,返回从s到s’的标量值。奖励的绝对值一致受 R m a x R_{max} Rmax为界。
  • γ ∈ [ 0 , 1 ] γ ∈ [0, 1] γ[0,1] 是表示时间值的折扣系数。

在每个时间步长t中,环境都有一个状态 s t s_t st。智能体观察此状态,并在上执行操作。该操作使环境转换到下一个状态 s t + 1 ∼ P ( ⋅ ∣ s t , a t ) s_{t+1}∼P(·|s_t,a_t) st+1P(s

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值