【动手学强化学习】part1-初探强化学习

原创

已于 2024-10-22 12:53:56 修改 · 1.4k 阅读

·

35

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #机器学习

于 2024-10-22 12:51:46 首次发布

阐述、总结【动手学强化学习】章节内容的学习情况，复现并理解代码。

文章目录

一、What：什么是强化学习？

二、Where&When：什么时候、什么场景适合使用强化学习？

三、Why：为什么要使用强化学习？

四、Who：哪些人适合学习、使用强化学习？

五、How：如何使用强化学习？

前言

初次接触强化学习的内容，主要学习参考以下两大部分：

（1）【动手学强化学习】——上海交大，张伟楠教授团队

① 教学视频

② 教材内容

（2）【强化学习的数学原理】——西湖大学，赵世钰教授团队

① 教学视频

② B站大佬代码实现

非常感谢大佬们的倾囊相授，后续章节的学习以实现代码的复现为目标，充分理解背后的数学原理

此专栏只为记录个人学习情况，若有不对之处，欢迎评论区交流讨论。

理解一个新型的事物、技术，个人习惯性地采用“5W1H”的方式建立知识体系框架，下面以个人理解的方式去进行强化学习这项技术内涵的阐述。

一、What：什么是强化学习？

阐述①：

广泛地讲，强化学习是机器通过与环境交互来实现目标的一种计算方法。机器和环境的一轮交互是指，机器在环境的一个状态下做一个动作决策，把这个动作作用到环境当中，这个环境发生相应的改变并且将相应的奖励反馈和下一轮状态传回机器。这种交互是迭代进行的，机器的目标是最大化在多轮交互过程中获得的累积奖励的期望。强化学习用智能体（agent）这个概念来表示做决策的机器。相比于有监督学习中的“模型”，强化学习中的“智能体”强调机器不但可以感知周围的环境信息，还可以通过做决策来直接改变这个环境，而不只是给出一些预测信号。

阐述②：

强化学习是一种机器学习的方法，它让软件代理在与环境的交互中学习如何采取行动以最大化某种累积奖励。这种学习方式不需要监督，也不需要大量标记的数据集，而是通过试错来不断优化其行为策略。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。