强化学习基础知识

1、Return

Return表示回报,Return是将t时刻的奖励全部都累计加起来,一直到游戏结束的最后一个奖励。

其通常用于评估策略的好坏,或者用于更新代理的策略。

2、价值函数

价值函数(Value Function)是用来估计在特定的策略下,从某个状态开始或在某个状态下采取某个动作所能获得的期望累积回报。价值函数是评估状态、动作或策略好坏的关键工具,它可以帮助代理(agent)做出更好的决策。

价值函数通常分为以下几种类型:

  1. 状态价值函数(State Value Function): 表示在给定策略π下,从状态s开始并遵循策略π所能获得的期望累积回报。通常表示为 Vπ(s)Vπ(s)。

  2. 动作价值函数(Action Value Function): 表示在给定策略π下,从状态s开始,采取动作a,并在之后遵循策略π所能获得的期望累积回报。通常表示为 Qπ(s,a)Qπ(s,a)。

  3. 状态-动作价值函数(State-Action Value Function): 又称为Q函数,它是最常用的价值函数之一,因为它结合了状态和动作的信息。Q函数表示在状态s下采取动作a,并之后遵循策略π所能获得的期望累积回报。

  4. 优势函数(Advantage Function): 表示采取某个动作相比于其他动作在特定状态下的额外价值。它可以用于比较不同动作的相对价值,通常表示为 Aπ(s,a)=

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值