11、无记忆情况下在非马尔可夫环境中构建准确策略

无记忆情况下在非马尔可夫环境中构建准确策略

1. 引言

基于遗传算法的分类器系统在参数优化问题中具有诊断能力,但在投入生产或诊断使用前,需要进行学习阶段。通常,这个学习阶段是在代表可用且经过验证或专业评估数据的样本上进行的。分类器系统通过强化学习来吸收数据集中的趋势,系统不断接收由学习样本生成的信号,分类器对传入信号做出的反应动作会通过适应度函数获得奖励,该函数的目的是在种群中保留准确的分类器,防止它们因遗传压力而被删除或丢失。

在强化学习中,Q - 学习强化方法和基于预期的方法是基于遗传算法的学习分类器系统中最常用的方法。然而,在处理一些多步问题时,这些方法往往难以构建准确的策略。常见的解决方法是添加一定量的信息,但确定添加多少信息来解决特定的多步问题是一个难题。本文选择关注另一种可能性,即通过使用不同的知识结构在学习系统中创建认知模式,具体基于匹兹堡分类器系统的结构进行并行探索。

2. 背景与相关工作
2.1 迷宫问题

迷宫问题是简化的强化学习问题,常用于评估学习方法的效率、改进现有分类器系统或验证新算法。一些迷宫存在“别名”情况,即感知上相似但到达目标需要不同动作的情况。解决迷宫问题所需的能力可能与解决包含缺失或别名数据的优化问题所需的能力相关。

迷宫由相邻的单元格组成,单元格可以包含障碍物、食物、动画体或捕食者。动画体随机放置在迷宫中,其目标是移动到包含食物的单元格。动画体对环境的感知有限,通过收集其周围八个单元格的状态来确定,并且只能移动到相邻的空单元格。

迷宫环境有多种参数可用于评估迷宫的复杂性和学习方法的效率。别名位置分为三种类型:
- 类型 I </

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值