一、基本概念
1.贝尔曼公式
推导过程:
第一项:
第二项:
elementwise form
matrix-vector form
2.贝尔曼最优公式
elementwise form
matrix-vector form
Solution:使用Value iteration
3.State value
定义:
elementwise form
Solution:使用贝尔曼公式
4.Action value
定义:
根据下面公式
即
得到
elementwise form
5.Value iteration
6.Policy iteration
7.Policy iteration & Value iteration
二、蒙特卡洛(Monte Carlo Learning)
1.The MC Basic algorithm(model-free)
注:可以看到,第二步和Policy iteration是一样的,唯一不同是在第一步时,Policy iteration是通过一个初始的策略求出State value再求出Action value,而MC是直接根据初始策略利用数据求出Action value。