无记忆情况下在非马尔可夫环境中构建准确策略
1. 引言
基于遗传算法的分类器系统在参数优化问题中具有诊断能力,但在投入生产或诊断使用前,需要进行学习阶段。通常,这个学习阶段是在代表可用且经过验证或专业评估数据的样本上进行的。分类器系统通过强化学习来吸收数据集中的趋势,系统不断接收由学习样本生成的信号,分类器对传入信号做出的反应动作会通过适应度函数获得奖励,该函数的目的是在种群中保留准确的分类器,防止它们因遗传压力而被删除或丢失。
在强化学习中,Q - 学习强化方法和基于预期的方法是基于遗传算法的学习分类器系统中最常用的方法。然而,在处理一些多步问题时,这些方法往往难以构建准确的策略。常见的解决方法是添加一定量的信息,但确定添加多少信息来解决特定的多步问题是一个难题。本文选择关注另一种可能性,即通过使用不同的知识结构在学习系统中创建认知模式,具体基于匹兹堡分类器系统的结构进行并行探索。
2. 背景与相关工作
2.1 迷宫问题
迷宫问题是简化的强化学习问题,常用于评估学习方法的效率、改进现有分类器系统或验证新算法。一些迷宫存在“别名”情况,即感知上相似但到达目标需要不同动作的情况。解决迷宫问题所需的能力可能与解决包含缺失或别名数据的优化问题所需的能力相关。
迷宫由相邻的单元格组成,单元格可以包含障碍物、食物、动画体或捕食者。动画体随机放置在迷宫中,其目标是移动到包含食物的单元格。动画体对环境的感知有限,通过收集其周围八个单元格的状态来确定,并且只能移动到相邻的空单元格。
迷宫环境有多种参数可用于评估迷宫的复杂性和学习方法的效率。别名位置分为三种类型:
- 类型 I </
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



