微信公众号、知乎号(同名):李歪理,欢迎大家关注
0. 前言
通过强化学习的基础理论,只能解决一些中小规模的问题,很多价值函数需要用一张大表来存储,获取某一状态或行为价值的时候通常需要一个查表操作(Table Lookup),这对于那些状态空间或行为空间很大的问题几乎无法求解,而许多实际问题都是这些拥有大量状态和行为空间的问题,因此只掌握强化学习的基础理论,是无法较好的解决实际问题的。
在实际应用中,对于状态和行为空间都比较大的情况下,精确获得各种 v(s)v(s)v(s) 和 q(s,a)q(s,a)