### 1.RL和其他ML方法(监督学习(supervised learning)和非监督学习(unsupervised learning))的关联和区别。
##### Sl:它的基本问题是,当给定一系列带标签的数据时,如何自动构建一个函数来将某些输入映射成另外一些输出。
▪ 文本分类:电子邮件是否是垃圾邮件?
▪ 图像分类和目标检测:图片包含了猫还是狗还是其他东西?
▪ 回归问题:根据气象传感器的信息判断明天的天气。
▪ 情感分析:某份评价反应的客户满意度是多少
##### usl:另外一个极端就是所谓的非监督学习,它假设我们的数据没有已知的标签。它的主要目标是从当前的数据集中学习一些隐藏的结构。
##### Rl:RL则处于第三阵营,介于完全监督和完全没有预定义标签之间。
### 2.RL有哪些主要形式,它们之间的关系是什么样的。
RL实体(智能体和环境)以及它们之间的交互通道(动作、奖励和观察)。
实体通过观察环境做出动作,最后获得奖励,
奖励的目的是告诉智能体它有多成功,这是RL最核心的东西。强化(reinforcement)这个术语就出自此,即智能体获得的奖励应该正向或反向地强化它的行为。奖励是局部的,意味着它反映了智能体最近的行为有多成功,而不是从开始到现在累计的行为有多成功。
智能体是通过执行确定的动作、进行观察、获得最终的奖励来和环境交互的人或物。在大多数实际RL场景中,智能体是某种软件的一部分,被期望以一种比较有效的方法来解决某个问题。
对环境的观察形成了智能体的第二个信息渠道(第一个信息渠道是奖励)。你可能会奇怪为什么我们需要这个单独的数据源。答案是方便。观察是环境为智能体提供的信息,它能说明智能体周围的情况。
### 3.RL的理论基础——马尔可夫决策过程。
马尔可夫决策过程(Markov Decisio

本文介绍了强化学习(RL)、监督学习(SL)和非监督学习(USL)之间的关联和区别。SL关注有标签数据的映射问题,如文本分类和图像识别;USL处理无标签数据,寻找隐藏结构。RL则介于两者之间,智能体通过与环境互动和接收奖励来学习。RL的核心是马尔可夫决策过程(MDP),包括状态、动作、奖励和观察。MDP通过转移概率描述系统动态,并利用折扣因子衡量长期奖励。
最低0.47元/天 解锁文章
1359

被折叠的 条评论
为什么被折叠?



