强化学习问题的解决方法
1. 动态规划方法的比较与局限
在解决强化学习问题中,价值迭代和策略迭代是两种重要的算法。价值迭代能给出最优策略,且相较于策略迭代算法,计算量更小。价值迭代仅需对状态空间进行 6 次遍历,而策略迭代则需要 20 次遍历(17 次用于策略评估,3 次用于策略改进)才能得到相同的最优策略。
此外,还可以将策略改进步骤与截断的策略评估步骤相结合,在一些复杂的例子中,当策略改进后状态值发生显著变化时,这种方法的收敛速度比策略迭代和价值迭代算法都要快。
然而,动态规划方法在实际应用中存在两个重要的缺点:
1.1 维度灾难
策略迭代和价值迭代算法都需要多次遍历整个状态空间,直到找到最优策略。并且,我们会以表格形式存储每个状态的策略、状态值和动作值。但在现实问题中,可能的状态数量往往极其庞大,这就是所谓的维度灾难。随着维度的增加,变量(状态)的可能取值数量会呈指数级增长。
例如,在食品卡车问题中,除了跟踪肉饼的数量,若还需跟踪汉堡面包、西红柿和洋葱的数量,且每种物品的容量为 400,精确记录库存时,可能的状态数量将达到 6 × 401⁴,即超过 10¹¹ 个。对于这样一个简单的问题,要跟踪如此多的状态是不现实的。
1.2 对环境完整模型的需求
之前使用的方法依赖环境的转移概率来获得最优策略,但在实际中,这些概率往往难以计算,甚至无法枚举所有可能的转移,或者我们根本不知道这些概率。而获取样本轨迹则相对容易,可以从环境本身或其模拟中得到。
2. 应对维度灾难的方法
2.1 异步动态规划
异步动态规划是
超级会员免费看
订阅专栏 解锁全文
7343

被折叠的 条评论
为什么被折叠?



