强化学习(reinforcement)

本文介绍了在B站视频中关于强化学习中的概念,如State(状态)、Action(行动)、Reward(奖励),以及Q-learning算法中的Policy(策略)和Value(价值)计算。还讨论了Q-value函数和步长调整对延迟奖励和无延迟奖励环境的影响,以及MCMethod和Temporal-DifferenceLearning的区别。

在这里插入图片描述

B站链接

https://www.bilibili.com/video/BV13a4y1J7bw?p=1&vd_source=6f43d02eb274352809b90e8cdf744905

agent----------environment--------goal

在这里插入图片描述

State 状态

Action 行动

Reward奖励

是一个及时的反馈
目标是一个长远的结果

Core element👇

Policy 策略

当前需要决定的行动策略,policy依赖于value,可以理解为,policy输入的是state,输出是action

Value 价值

state-value函数
state-action-value函数
在这里插入图片描述

try_and_error delay_reward exploration exploitation

在这里插入图片描述
a = L(left)/R(right)
以上的Q可以理解是t时刻时进行行动a的价值函数。
选择action时,要选择在此刻t的Q(a_i)的最大值。
在这里插入图片描述
![在这里插入图片描述](https://img-blog.csdnimg.cn/046cd50970e34a53a937c13ca761f58e.png在这里插入图片描述

Qn+1Q_n+1Qn+1是第n+1次行动的估计价值,RnR_nRn是第n次行动的真实价值。1/n为步长。适用于没有延迟奖励👆且只有一个状态的情况

👆这个函数更受最近的action的影响,所以可能更适合奖励机制。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

MC Method 和 Tempportal-Difference Learning分别类似于👇俩公式

在这里插入图片描述

MC method就是用随机性来模拟状态值。
Tempportal-Difference Learning。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值