学习笔记,仅供参考,有错必纠 Q-Learning 我们可以用如下有向图表示我们的学习任务,边的权重表示奖励: 用状态转移矩阵描述图: 其中-1表示状态节点之间没有边相连,0和100表示状态节点直接有边相连的奖励值。 状态转移公式: Q(s,a)=R(s,a)+γ⋅maxa~{ Q(s~,a~)} Q(s, a) = R(s, a) + \gamma \cdot max_{\tilde{a}} \{Q(\tilde{s}, \tilde{a}) \}