moead/dqn论文分享pre

提出了一种基于强化学习的算子选择方法。通过将决策变量视为状态,将候选算子视为行动,将适应度改进视为奖励,将种群进化视为环境,智能体使用深度神经网络学习策略,估计给定状态下每个行动的Q值。Q值表示算子在未来而不是过去所带来的累积适应度改善,因此,未来几代有望产生更好的后代解决方案
通过将所提出的
算子选择方法嵌入到具有动态资源分配的基于分解的MOEA中,开发了MOEA

从以下四个部分进行汇报
首先是文章背景

进化算法是处理多目标优化问题的最有效技术之一
现有进化算法中,算子定义了基于父代生成子代的规则
比如:遗传算法通过交叉和变异算子生成后代,其中交叉算子提供了良好的探索能力,而变异算子可以帮助解逃离局部最优

但是不存在在所有MOP上优于任何其他算子的算子
这意味着在解决特定MOP时要有针对性的选择算子
这种选择过程对于解决许多计算成本高的现实问题是不切实际的
所以就需要自适应选择算子

自适应算子选择在复杂优化问题上的优势很明显,但是也面临着探索与开发的两难境地

在求解MOP时,因为每个解都有多个目标值,应该同时考虑收敛性和多样性。
文中就提出了提出一种基于强化学习的算子选择方法: 将决策变量视为状态,将候选算子视为行动,将适应度改进视为奖励,将种群进化视为环境,agent使用深度神经网络学习策略,估计给定状态下每个行动的Q值。
通过将所提出的算子选择方法嵌入到具有动态资源分配的基于分解的MOEA中,agent迭代地更新深度神经网络以指导算子的选择。所提出的MOEA表现出高度通用性,实现了比现存MOEA更好的性能。

接下来介绍一下文中的基本概念
为了解决各种未知的MOP

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值