强化学习的基本原理:

从强化学习的基本原理可以看出它与其他机器学习算法如监督学习和非监督学习的一些基本差别。 在监督学习和非监督学习中,数据是静态的、不需要与环境进行交互, 比如图像识别,只要给出足够的差异样本,将数据输入深度神经网络中进行训练即可。然而, 强化学习的学习过程是动态的、不断交互的过程, 所需要的数据也是通过与环境不断交互产生的。所以,与监督学习和非监督学习相比,强化学习所涉及的对象更多,比如动作、环境、状态转移概率和回报函数等等。强化学习更像是人的学习过程:人类通过与周围环境交互,学会了走路,奔跑,劳动。 深度学习如图像识别和语音识别解决的是感知问题,强化学习解决的是决策问题。 人工智能的终极目的是通过感知进行智能决策。
通过不断的探索, 提出了一套可以解决大部分强化学习问题的框架,这个框架就是马尔科夫决策过程,简称MDP。 其中的概念有马尔可夫性,马尔科夫过程,马尔科夫决策过程。
策略函数:
表示每个状态到行为的映射。
状态值函数(简称值函数):
表示策略执行之后的状态的值,可以用来评价当前状态的好坏。
| 状态 | 值 |
|---|---|
| 状态1 | 0.3 |
| 状态2 | 0.7 |
状态-行为值函数(简称Q函数):
表示智能体遵循策略 π \pi π 在 某一状态 下所执行的 特定行为 的最佳程度.
| 状态 | 行为 | 值 |
|---|---|---|
| 状态1 | 行为1 | 0.03 |
| 状态1 | 行为2 | 0.02 |
| 状态2 | 行为1 | 0.5 |
| 状态2 | 行为2 | 0.9 |
在提到值函数V(S)或Q函数Q(S,a)时,实际上是指如上所述的值表和Q表。
值函数与状Q函数的区别:
值函数是确定状态的最佳程度,而Q函数是确定每一状态下行为的最佳程度。
贝尔曼方程,也被称作动态规划方程, 他是把一个规划问题转化为抽象状态之间的转移问题,求解贝尔曼方程就相当于在寻找选择了什么样的策略到达了当前状态。
贝尔曼方程的重要性在于, 它能让我们将一个状态的值表达成其它状态的值。这意味着,如果我们知道

本文深入解析强化学习原理,对比监督与非监督学习,强调其动态交互特性。介绍马尔科夫决策过程(MDP),策略函数及值函数概念,探讨贝尔曼方程在策略优化中的应用。同时,区分值函数与Q函数,阐述值迭代与策略迭代算法。
最低0.47元/天 解锁文章
1631

被折叠的 条评论
为什么被折叠?



