本系列博客对莫烦视频(https://morvanzhou.github.io/)的知识点进行总结。
强化学习基础概念
强化学习的过程中会进行多次迭代,每次迭代都会进行上图的操作。也就是Agent(智能体)根据现在的状态做出一个自认为最好的动作,然后环境根据这个动作给他返回一个奖赏和新的状态。之后不断循环这个过程直到智能体对环境充分熟悉,保证每次都能做出正确的动作,这就是强化学习的基本模型。
Q Learning
Q-Learning是强化学习算法中value_based的算法,该算法中,Q即为Q(s,a),就是在某一时刻的 s 状态下(s∈S),采取动作a (a∈A)动作能够获得收益的期望,环境会根据agent的动作反馈相应的回报reward,所以算法的主要思想就是将State与Action构建成一张Q表来存储Q值,然后根据Q值来选取能够获得最大的收益的动作。Q表中一行代表一个状态(state),一列代表一个动作(action),如下图。
这个表所表示的环境中只有两个状态,就是s1和s2。Agent也只有两个动作,a1和a2。
比如Agent当前状态为s1,他要选择现在最好的动作,就是a2,就这么简单