Q-Learning
题外话
在开始学习的一瞬间,微信收到消息,发小在教高中物理的受力分析。突然想到个问题:若竖直上抛一个物体,该物体到达最高点时是否受到空气阻力。在查过空气阻力计算公式之后发现其数值与速度的平方成正比,和摩擦力有运动趋势就存在不同,空气阻力必须要有相对运动才行唉。
Q-learning要素
- agent :目标,执行人;
- state :状态;
- action :行为;
- reward :每个状态进行的行为都会有一个对应的奖励值;
- R矩阵 : reward 矩阵,state 为行,action 为列,值为 reward;
- Q矩阵 : 用来表示学习到的经验,与R矩阵同阶,表示从一个 state 到另一个 state 能够得到的经验的总和;
- episode :探索,在学习过程中进行的每一次行动 / 探索。
Q-Learning目标
Q-Learning 的目标是到达 reward 最大的 state ,因此会设置目标 state 到达自己的 reward 值最大,这样 agent 在到达目标 state 之后就会一直停留在目标 state 内,这种目标也叫吸收目标 。
Q矩阵的学习过程
其中 s 表示当前的状态, a 表示当前动