无模型策略评估:蒙特卡洛(MC)方法估计
一、 蒙特卡洛(MC)方法可以解决什么强化学习问题
MC基于统计(大数)原理,可解决无模型的强化学习问题。核心思想为:智能体不断与环境交互,产生一系列历史轨迹(s,a,r,…,s,a,r,从开始到结束),通过索引历史轨迹中具体某个状态、行为下的累计回报G,并用他们的均值来估计这个状态、行为的值函数。
二、 MC增量更新值函数的算法
1、 MC一般更新算法
根据核心思想:
图中V(s)亦可为Q(s,a);一般情况下,都是估计Q(s,a),因为根据贝尔曼最优,它可以直接得出最优策略。
2、 增量更新方法
思路:每一条历史轨迹有一个累计回报G,每有一个G,就更新一次V or Q,具体算法如下:
以上算法,都是MC发挥其策略评估的作用,最终都要用于策略更新。
三、 epsilon-贪婪法
上面提到策略更新,就不得不提epsilon-贪婪法:
一般贪婪法和epsilon-贪婪法都用于策略更新上,一般贪婪法就是取Q值函数最大的a,使这个a的概率为1;epsilon-贪婪法考虑随机搜索,以概率epsilon进行随机取样,于是Pi(s|a)的概率就变为: