预期学习分类器系统中的广义状态值
在机器学习领域,预期学习分类器系统(ACS2)在解决一些问题时展现出了一定的能力,但也存在着一些局限性。本文将深入探讨ACS2中存在的问题,以及如何通过引入广义状态值来改进其性能。
1. 奖励预测与动作选择
奖励预测值 r 会受到一个因素的影响,该因素或多或少地使奖励值偏向未来的强化值。为避免奖励的自我传播或对环境无实际改变的奖励传播,对奖励预测传播的分类器施加了约束,即其效果部分不能完全通用(cl.E ≠ {#}L)。这样,奖励预测值 r 能估计在所有分类器适用的可能情况 σ 中执行动作 A 后,遵循最优策略所获得的平均折扣奖励。
动作选择可以在一定程度上基于奖励预测值 r 进行偏向。通常,ACS2采用简单的 ϵ - 贪心动作选择策略,即以概率 ϵ 随机选择动作,否则选择最佳动作。在匹配集 [M] 中,具有最高 qr 值的分类器的动作通常被视为最佳动作。此外,为了加速模型学习,还引入了额外的动作选择偏向,以概率 pb 选择能带来最高知识增长的动作(以最高平均应用延迟或最低平均质量表示)。
2. 模型别名问题
尽管分类器的奖励预测值所代表的行为策略在解决不同迷宫问题上表现出一定效果,但也会出现所谓的“模型别名”问题。该问题指的是,演化预测模型中的分类器可能过于通用,无法准确指定强化值。也就是说,即使分类器在其条件满足的所有情况下能准确指定感知效果,但其奖励预测值可能不准确。
2.1 简单示例
以四子棋游戏为例,ACS2学习游戏的走法。动作是将硬币放入七个插槽中的任意一个。一段时间后,ACS2可以学习到所有可能动作的效果表示。然而,为了准确预测动作效果,分类器的条件必须指定硬币
广义状态值在ACS2中的应用
超级会员免费看
订阅专栏 解锁全文

6325

被折叠的 条评论
为什么被折叠?



