具有选择性泛化能力的Q学习及其在化工厂布局规划中的应用
1. 引言
在实现特定目标的标准未知的环境中,强化学习在收集、存储和利用环境反馈信息方面表现出色。无需监督,它就能构建评估行动的标准以达成目标。然而,学习代理获取的信息依赖于与环境的交互,当实现目标需复杂行动时,代理要广泛探索环境并存储大量数据来构建标准。为克服这些缺点,具有泛化能力的函数逼近方法备受关注。
Cerebellar Model Articulation Controller(CMAC)是一种具有泛化能力的查表方法,无需精确数学模型就能学习非线性函数。在强化学习中,CMAC用于逼近评估函数以提升学习性能。在CMAC里,数值信息以权重形式分布存储在内存中,每个权重与一个基函数相关,该基函数在输入的指定区域输出非零值。CMAC输入由基函数构成的网格进行量化。为加速学习并扩大信息传播到相邻基函数,CMAC会更新与给定点接近的基函数相关的一组权重,从而实现泛化能力。不过,传统CMAC的网格和泛化区域形状固定,虽可调整量化间隔改变区域大小,但形状无法调整,不同情况所需的区域大小和形状不同,传统CMAC难以针对每种情况实现合适的泛化。
为解决这一问题,引入了具有选择性泛化能力的CMAC设计方法。该方法通过扩展输入选择多个CMAC,扩展输入由利用先验知识得到的函数生成,可调整CMAC泛化影响区域的形状和大小。此方法能为传统CMAC效果不佳的情况实现合适的泛化,并将其应用于虚构化工厂的布局分配问题。
在化工厂中,布局规划需考虑维护和消防可达性、可操作性及建设成本等因素。从安全角度看,储罐和反应器应尽量远离以减少火灾或爆炸影响,但距离过大会增加连接管道长度,降低生产和运营效率。因此,化工厂布局是一个多目标优化问
超级会员免费看
订阅专栏 解锁全文
1608

被折叠的 条评论
为什么被折叠?



