【动手学强化学习】part1-初探强化学习

阐述、总结【动手学强化学习】章节内容的学习情况,复现并理解代码。

初次接触强化学习的内容,主要学习参考以下两大部分:

(1)【动手学强化学习】——上海交大,张伟楠教授团队

教学视频

教材内容

(2)【强化学习的数学原理】——西湖大学,赵世钰教授团队

教学视频

B站大佬代码实现

非常感谢大佬们的倾囊相授,后续章节的学习以实现代码的复现为目标,充分理解背后的数学原理

此专栏只为记录个人学习情况,若有不对之处,欢迎评论区交流讨论。


理解一个新型的事物、技术,个人习惯性地采用“5W1H”的方式建立知识体系框架,下面以个人理解的方式去进行强化学习这项技术内涵的阐述。

一、What:什么是强化学习?

  • 阐述①:

广泛地讲,强化学习是机器通过与环境交互来实现目标的一种计算方法。机器和环境的一轮交互是指,机器在环境的一个状态下做一个动作决策,把这个动作作用到环境当中,这个环境发生相应的改变并且将相应的奖励反馈和下一轮状态传回机器。这种交互是迭代进行的,机器的目标是最大化在多轮交互过程中获得的累积奖励的期望。强化学习用智能体(agent)这个概念来表示做决策的机器。相比于有监督学习中的“模型”,强化学习中的“智能体”强调机器不但可以感知周围的环境信息,还可以通过做决策来直接改变这个环境,而不只是给出一些预测信号。

  • 阐述②:

强化学习是一种机器学习的方法,它让软件代理在与环境的交互中学习如何采取行动以最大化某种累积奖励。这种学习方式不需要监督,也不需要大量标记的数据集,而是通过试错来不断优化其行为策略。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值