文章目录
前言
昨天无意中翻了翻以前的博文,发现关于强化学习部分的理论部分说的不是很清晰,属于那种懂得都懂,不懂的很难懂的那种。所以的话刚好趁期末有点空复习,那么把这个简要补充一下吧。从最基础的地方重新开始讲起吧,那么本文的话也是会将看起来比较复杂的概念进行简化,但是本文当中还是会有的,但是你可以选择性忽略,或者自行加一个补充。。
那么本文目标啥呢
- 强化学习的概念
- 强加学习的特征
- 理解马尔科夫决策
- bellman方程是啥
- Q-learn
- DQN
大概就是这5个目标吧,但是每一环节是环环相扣的,所以的话需要仔细观看本篇博文哈,OK,这也是难得写一次这种类型的基础的博文,略有不当,望多多指教。
强化学习概述
在开始疯狂输出前,我们需要好好理解一下到底啥是强化学习。这玩意到底是啥玩意,能够干啥。我们先来看一下这个玩意的官方一点的概念是啥吧:
强化学习(Reinforcement Learning,RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题 。 强化学习的常见模型是标准的马尔可夫决策过程(Markov Decision Process,MDP)。按给定条件,强化学习可分为基于模式的强化学习(model-based RL)和无模式强化学习(model-free RL) ,以及主动强化学习(active