moead/dqn论文分享pre

kininee

于 2024-05-22 17:05:11 发布

阅读量1k

点赞数 13

分类专栏：多目标优化文章标签：多目标优化强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_46273323/article/details/128084954

版权

提出了一种基于强化学习的算子选择方法。通过将决策变量视为状态，将候选算子视为行动，将适应度改进视为奖励，将种群进化视为环境，智能体使用深度神经网络学习策略，估计给定状态下每个行动的Q值。Q值表示算子在未来而不是过去所带来的累积适应度改善，因此，未来几代有望产生更好的后代解决方案
通过将所提出的
算子选择方法嵌入到具有动态资源分配的基于分解的MOEA中，开发了MOEA

从以下四个部分进行汇报
首先是文章背景

进化算法是处理多目标优化问题的最有效技术之一
现有进化算法中，算子定义了基于父代生成子代的规则
比如：遗传算法通过交叉和变异算子生成后代，其中交叉算子提供了良好的探索能力，而变异算子可以帮助解逃离局部最优

但是不存在在所有MOP上优于任何其他算子的算子
这意味着在解决特定MOP时要有针对性的选择算子
这种选择过程对于解决许多计算成本高的现实问题是不切实际的
所以就需要自适应选择算子

自适应算子选择在复杂优化问题上的优势很明显，但是也面临着探索与开发的两难境地

在求解MOP时，因为每个解都有多个目标值，应该同时考虑收敛性和多样性。
文中就提出了提出一种基于强化学习的算子选择方法: 将决策变量视为状态，将候选算子视为行动，将适应度改进视为奖励，将种群进化视为环境，agent使用深度神经网络学习策略，估计给定状态下每个行动的Q值。
通过将所提出的算子选择方法嵌入到具有动态资源分配的基于分解的MOEA中，agent迭代地更新深度神经网络以指导算子的选择。所提出的MOEA表现出高度通用性，实现了比现存MOEA更好的性能。

接下来介绍一下文中的基本概念
为了解决各种未知的MOP

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。