Q_table会根据以下公式更新 其中: 其中α为学习速率(learning rate),γ为折扣因子(discount factor)。根据公式可以看出,学习速率α越大,保留之前训练的效果就越少。折扣因子γ越大,所起到的作用就越大。 maxQ是指记忆中的记忆,即查看之前Q_table信息预测下一步的收益