目录
1.强化学习
强化学习(RL)是一种介于完全监督和完全没有预定义标签之间。它会用到许多比较完善的监督学习方法来学习数据的表示
2.强化学习的形式
上图展示了两个主要的RL尸体(智能体和环境)以及他们之间交互通道(动作,奖励和观察)
2.1 奖励
在强化学习中,奖励是指智能体在执行一个动作后从环境中获得的评价信号。奖励可以是正的、负的或零。正的奖励通常表示智能体做出了正确的决策,负的奖励则表示智能体做出了错误的决策,而零的奖励则表示动作不会对智能体的状态或环境产生影响。比如在金融交易中,对买卖股票的交易者来说,奖励就是收益的多少。学习成绩也是一种奖励系统,给学生提供学习反馈
2.2 智能体
在强化学习中,智能体是通过执行确定的动作,进行观察,获得最终的奖励来和环境交互的人或物,在多数的RL情境下,智慧体就是某种软件的一部分,期望以一种有效地方法来解决某个问题。例如在金融交易中,智能体就是决定交易如何执行的交易系统或交易员;在国际象棋中,智慧体就是玩家或者计算机程序。
2.3 环境
强化学习中的环境是一个关键组成部分,它代表智慧体所在的外部世界,智慧体与环境的交互仅限于奖励,动作以及观察。
2.4 动作
强化学习中的动作是指智能体在特定情况下可以执行的操作,以便与环境进行交互,比如说:原神,启动!在玩原神的时候,你操作角色进行前后左右移动就是一种动作;在玩万宁象棋的时候,你控制棋子的移动也是一种动作
2.5 观察
观察是指智慧体从环境中收集到的信息,对环境的观察就成为了智慧体的第二个信息渠道(第一个信息渠道是奖励)。观察可能与即将到来的奖励有关,也可能无关,甚至可以包含某种模糊的奖励信息,比如你玩东方风神录游戏屏幕上的分数一样。分数只是像素构成的,但是我们可以将其转为奖励值。
如上图所示,这是黑虎阿福的老鼠走迷宫,在这个例子中,鼠鼠就是智能体,环境就是鼠鼠所处的外部环境——也就是迷宫。可以看到迷宫有些地方有韭菜盒子,有些地方有闪电旋风劈,这只老鼠可以选择一些动作:左转,右转,前进等。每一时刻,鼠鼠都能观察到迷宫的整体状态,并决定采用什么动作。鼠鼠的目的是要吃到更多的韭菜盒子,并且躲开闪电旋风劈。这些韭菜盒子和闪电旋风劈就代表鼠鼠收到的奖励
图片来源于 深度强化学习实践(第二版)