### 1.RL和其他ML方法(监督学习(supervised learning)和非监督学习(unsupervised learning))的关联和区别。
##### Sl:它的基本问题是,当给定一系列带标签的数据时,如何自动构建一个函数来将某些输入映射成另外一些输出。
▪ 文本分类:电子邮件是否是垃圾邮件?
▪ 图像分类和目标检测:图片包含了猫还是狗还是其他东西?
▪ 回归问题:根据气象传感器的信息判断明天的天气。
▪ 情感分析:某份评价反应的客户满意度是多少
##### usl:另外一个极端就是所谓的非监督学习,它假设我们的数据没有已知的标签。它的主要目标是从当前的数据集中学习一些隐藏的结构。
##### Rl:RL则处于第三阵营,介于完全监督和完全没有预定义标签之间。
### 2.RL有哪些主要形式,它们之间的关系是什么样的。
RL实体(智能体和环境)以及它们之间的交互通道(动作、奖励和观察)。
实体通过观察环境做出动作,最后获得奖励,
奖励的目的是告诉智能体它有多成功,这是RL最核心的东西。强化(reinforcement)这个术语就出自此,即智能体获得的奖励应该正向或反向地强化它的行为。奖励是局部的,意味着它反映了智能体最近的行为有多成功,而不是从开始到现在累计的行为有多成功。
智能体是通过执行确定的动作、进行观察、获得最终的奖励来和环境交互的人或物。在大多数实际RL场景中,智能体是某种软件的一部分,被期望以一种比较有效的方法来解决某个问题。
对环境的观察形成了智能