【强化学习基础】一.什么是强化学习_强化学习中的“奖励”用来( )a表示对模型的评估和度量b用于初始化模型参数c指-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_18814985/article/details/131498771

1.强化学习

强化学习（RL）是一种介于完全监督和完全没有预定义标签之间。它会用到许多比较完善的监督学习方法来学习数据的表示

2.强化学习的形式

上图展示了两个主要的RL尸体（智能体和环境）以及他们之间交互通道（动作，奖励和观察）

2.1 奖励

在强化学习中，奖励是指智能体在执行一个动作后从环境中获得的评价信号。奖励可以是正的、负的或零。正的奖励通常表示智能体做出了正确的决策，负的奖励则表示智能体做出了错误的决策，而零的奖励则表示动作不会对智能体的状态或环境产生影响。比如在金融交易中，对买卖股票的交易者来说，奖励就是收益的多少。学习成绩也是一种奖励系统，给学生提供学习反馈

2.2 智能体

在强化学习中，智能体是通过执行确定的动作，进行观察，获得最终的奖励来和环境交互的人或物，在多数的RL情境下，智慧体就是某种软件的一部分，期望以一种有效地方法来解决某个问题。例如在金融交易中，智能体就是决定交易如何执行的交易系统或交易员；在国际象棋中，智慧体就是玩家或者计算机程序。

2.3 环境

强化学习中的环境是一个关键组成部分，它代表智慧体所在的外部世界，智慧体与环境的交互仅限于奖励，动作以及观察。

2.4 动作

强化学习中的动作是指智能体在特定情况下可以执行的操作，以便与环境进行交互，比如说：原神，启动！在玩原神的时候，你操作角色进行前后左右移动就是一种动作；在玩万宁象棋的时候，你控制棋子的移动也是一种动作

2.5 观察

观察是指智慧体从环境中收集到的信息，对环境的观察就成为了智慧体的第二个信息渠道（第一个信息渠道是奖励）。观察可能与即将到来的奖励有关，也可能无关，甚至可以包含某种模糊的奖励信息，比如你玩东方风神录游戏屏幕上的分数一样。分数只是像素构成的，但是我们可以将其转为奖励值。

如上图所示，这是黑虎阿福的老鼠走迷宫，在这个例子中，鼠鼠就是智能体，环境就是鼠鼠所处的外部环境——也就是迷宫。可以看到迷宫有些地方有韭菜盒子，有些地方有闪电旋风劈，这只老鼠可以选择一些动作：左转，右转，前进等。每一时刻，鼠鼠都能观察到迷宫的整体状态，并决定采用什么动作。鼠鼠的目的是要吃到更多的韭菜盒子，并且躲开闪电旋风劈。这些韭菜盒子和闪电旋风劈就代表鼠鼠收到的奖励

图片来源于深度强化学习实践（第二版）