学习分类系统(LCS):架构、特性与驱动机制解析
1. LCS架构
LCS 从根本上由一组分类器组成,也可称为有限规则集。每个分类器包含条件部分、动作部分、收益预测(奖励)和其他参数。分类器群体代表了 LCS 所应用环境的当前观测(状态)。LCS 主要由四个部分构成:
- 环境 :LCS 通过探测器和效应器分别与环境进行首次和最后接触。探测器感知环境的当前状态,并将其编码为格式化的输入数据。输入数据可以是布尔值或标称值,布尔输入形式为 {0,1,#},标称输入则在指定区间范围内并带有 # 符号,# 符号根据情况相当于 0 或 1。效应器最终执行 LCS 算法决定的动作。
- 性能组件 :该组件调节环境与分类器群体之间的接口,由群体集、匹配集、预测数组(评估动作的工具)和动作集组成。问题实例(输入)以分类器的条件部分形式呈现,如果输入与群体集中的任何分类器匹配,则这些分类器被归入匹配集。对于匹配集中的每个可能动作,预测收益计算为匹配集中所有分类器预测的适应度加权平均值,并存储在预测数组中。根据预测数组中的值选择一个动作执行,然后创建一个包含匹配集中指定该动作的分类器的动作集。
- 强化学习组件 :也称为信用分配组件。执行所选动作后,会生成一个标量奖励并感知下一个问题实例。同时,通过计算 Q 值(收到的奖励与预测数组中折扣最大值之和)来更新动作集。动作集中更新后的分类器参数(如预测收益 pj、误差 ej 和适应度 fj)会分配到群体集,然后由发现组件更新群体集。
- 进化组件 :使用不同的遗传算子(选择、交叉、变异)来发现更好的规则或
超级会员免费看
订阅专栏 解锁全文
19

被折叠的 条评论
为什么被折叠?



