-
policy iteration
-
value iteration
注:policy iteration使用bellman方程来更新value,最后收敛的value 即 是当前policy下的value值(所以叫做对policy进行评估),目的是为了后面的policy improvement得到新的policy。而value iteration是使用bellman 最优方程来更新value,最后收敛得到的value即
就是当前state状态下的最优的value值。因此,只要最后收敛,那么最优的policy也就得到的。因此这个方法是基于更新value的,所以叫value iteration。
-
TD(0)
-
SARSA
-
Q-learning
-
Double Q-learning
-
Deep Deterministic policy gradient( actor-citric)