深度强化学习心得:马尔可夫决策过程、动态规划

在马尔可夫决策过程中的状态与观测之间的关系:部分可观测马尔可夫决策过程可以用一个七元组描述:(S,A,T,R,Ω,O,γ)。其中 S表示状态空间,为隐变量,A为动作空间,T(s ′∣s,a) 为状态转移概率,R为奖励函数,Ω为观测概率,O 为观测空间,γ 为折扣系数。这些元素共同构成了一个部分可观测马尔可夫决策过程的数学模型,用于描述在不确定性环境下的决策过程。


对智能体的动作空间的阐述:在雅达利游戏和围棋等环境中,智能体的动作空间是离散的,意味着智能体可以选择的动作是有限的,而不是连续的。在这种情况下,智能体可以通过有限的动作集合来选择下一步的行动,而不必面对无限数量的可能动作。这种离散动作空间的特性使得在这些环境中设计和实现智能体的决策过程更加可行和高效。


两种策略的优缺点:首先,引入一定的随机性可以帮助智能体更好地探索环境,尤其是在学习初期,随机性策略有助于发现潜在的高奖励动作或状态。其次,随机性策略的动作具有多样性,这对于多智能体博弈很重要,因为它可以使智能体的行为更难被对手预测,增加了对手的不确定性。

相比之下,采用确定性策略的智能体总是对同样的状态采取相同的动作,这会导致其策略容易被对手预测,从而降低了其在博弈环境中的竞争力。因此,在强化学习中,通常会使用具有一定随机性的策略来平衡探索和利用,并且在多智能体博弈中增加不确定性,以提高智能体的表现和鲁棒性。

描述了在策略π下,状态s的价值函数Vπ(s)的期望值。其中,Gt表示从时刻t开始的折扣回报,rt+k+1表示在时刻t+k+1时刻的即时奖励,γ表示折扣因子(0≤γ≤1),表示未来奖励的重要性递减的速度。

公式中的期望值是在策略π下的期望回报,即在当前状态s下,根据策略π采取行动,获得未来奖励的期望值。具体来说,期望回报Gt是从时刻t开始的所有未来奖励的加权和,其中权重由折扣因子γ决定。因此,状态s的价值函数Vπ(s)表示在策略π下,从状态s开始,能够获得的期望回报。

模型:状态转移概率p_{s s^{\prime}}^{a}表示在当前状态s下,采取动作a后转移到下一状态s'的概率。这个概率描述了环境对于智能体行为的响应,它告诉智能体在当前状态下采取某个动作后,下一个状态会是什么。状态转移概率可以帮助智能体建立对环境的模型,从而在决策过程中进行

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值