莫烦python学习笔记1
什么是Q Learning
Q Learning也是一个决策过程
小例子
用tabular Q-learning的方法实现一个小例子,例子的环境是一个一维世界,在世界的右边有宝藏,探索者只要得到了宝藏尝到了甜头,然后以后就记住了得到宝藏的方法,这就是他用强化学习所学习到的行为。
-o---T
# T 就是宝藏的位置, o 是探索者的位置
Q-learing是一种记录行为值(Q value)的方法,每种在一定状态的行为都会有一个值Q(s,a),就是说行为a在s状态的值是Q(s,a).s在上面的探索游戏中,就
原创
2022-04-11 21:19:51 ·
827 阅读 ·
0 评论