深度学习1-RL和其他ML方法(监督学习(supervised learning)和非监督学习(unsupervised learning))的关联和区别。

本文介绍了强化学习(RL)、监督学习(SL)和非监督学习(USL)之间的关联和区别。SL关注有标签数据的映射问题,如文本分类和图像识别;USL处理无标签数据,寻找隐藏结构。RL则介于两者之间,智能体通过与环境互动和接收奖励来学习。RL的核心是马尔可夫决策过程(MDP),包括状态、动作、奖励和观察。MDP通过转移概率描述系统动态,并利用折扣因子衡量长期奖励。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

### 1.RL和其他ML方法(监督学习(supervised learning)和非监督学习(unsupervised learning))的关联和区别。

##### Sl:它的基本问题是,当给定一系列带标签的数据时,如何自动构建一个函数来将某些输入映射成另外一些输出。

​    ▪  文本分类:电子邮件是否是垃圾邮件?
​    ▪  图像分类和目标检测:图片包含了猫还是狗还是其他东西?
​    ▪  回归问题:根据气象传感器的信息判断明天的天气。
​    ▪  情感分析:某份评价反应的客户满意度是多少

##### usl:另外一个极端就是所谓的非监督学习,它假设我们的数据没有已知的标签。它的主要目标是从当前的数据集中学习一些隐藏的结构。

##### Rl:RL则处于第三阵营,介于完全监督和完全没有预定义标签之间。

### 2.RL有哪些主要形式,它们之间的关系是什么样的。

RL实体(智能体和环境)以及它们之间的交互通道(动作、奖励和观察)。

实体通过观察环境做出动作,最后获得奖励,

奖励的目的是告诉智能体它有多成功,这是RL最核心的东西。强化(reinforcement)这个术语就出自此,即智能体获得的奖励应该正向或反向地强化它的行为。奖励是局部的,意味着它反映了智能体最近的行为有多成功,而不是从开始到现在累计的行为有多成功。

智能体是通过执行确定的动作、进行观察、获得最终的奖励来和环境交互的人或物。在大多数实际RL场景中,智能体是某种软件的一部分,被期望以一种比较有效的方法来解决某个问题。

对环境的观察形成了智能

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

五百五。

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值