Q-learning属于基于价值(value)的单步更新离线学习强化学习算法;
什么是基于价值和单步更新看:
http://blog.youkuaiyun.com/ilypl/article/details/78539754
先来看一个场景:
我有一条狗,叫doge
doge一开始不知道在哪里拉粑粑,现在doge有两个选择,一个是到马桶拉,另一个就是在房子里面拉。
在S1状态,doge不知道应该是在马桶(a1)拉粑粑还是在房间(a2)里,所以doge就在房间(a2)里拉粑粑,S1结束;
到了S2状态,doge 又要拉粑粑,然后它还是有两个选择a1,a2,因为没有奖惩,所以doge还是在房间(a2)里拉粑粑;
最后我回家,看到满房间的粑粑,我揍了doge一顿,然后doge知道,房间拉粑粑为负面行为