最优策略
状态价值可以用来描述当前策略的好坏,如果对于所有s,均有,那么说明π1策略比π2好
最优策略π*表示,对于所有s和其他所有π都满足
状态价值可以用来描述当前策略的好坏,如果对于所有s,均有,那么说明π1策略比π2好
最优策略π*表示,对于所有s和其他所有π都满足
1834
2万+
486
3810
5万+

被折叠的 条评论
为什么被折叠?