燃爆！强化学习 + 多目标优化，驱动 AI 决策升级，港科大成果亮瞎眼，论文来袭！-优快云博客

本文链接：https://blog.youkuaiyun.com/Malaai/article/details/147274180

人工智能前沿，强化学习与多目标优化融合正改写技术格局！

现实中，大量实际问题亟需多目标权衡，这一融合趋势意义重大。港科大团队强势突破，创新性提出动态梯度平衡框架，运用多任务协同优化策略，一举攻克自动驾驶难题。数据见证实力，采用该框架后，自动驾驶碰撞率骤降 38%，能耗降低 21%，安全性与能效双双飞跃。技术层面，数据与算力升级，强化学习处理复杂决策能力凸显，和多目标优化结合，打破传统局限。

当下，相关研究百花齐放。我精心整理了十几篇优质的论文，有感兴趣的可以d d 我，希望能帮到你。

对资料感兴趣的可以 [丝 xin] 我~~

【论文1】Continual Multi-Objective Reinforcement Learning via Reward Model Rehearsal

The overall workflow of continual MORL (CMORL)

1.研究方法

Algorithm :CORE3

本文提出持续多目标强化学习（CMORL）问题的解决方法 CORE3，通过设计动态可扩展的智能体网络架构，能随新目标到来灵活扩展，实现快速适应；利用多目标奖励模型排练技术，恢复先前目标的奖励信号，缓解灾难性遗忘，使智能体有效学习多目标任务序列。

2.论文创新点

The detailed network architecture of CORE3 Benchmarks used in this paper

问题定义创新：首次将多目标强化学习中目标动态变化的场景形式化为持续多目标强化学习（CMORL）问题，突破了传统多目标强化学习假设目标固定的局限，为研究目标不断变化的实际场景提供了理论基础。
架构设计创新：设计动态可扩展的网络架构，离散动作空间采用向量Q网络，连续动作空间采用评论家-演员网络架构，能随目标数量增加自适应扩展，解决传统固定架构的局限，促进不同任务间的知识迁移。
训练技术创新：提出奖励模型排练技术，通过学习多目标奖励模型恢复无奖励信号目标的奖励，理论上保证了恢复奖励训练策略的性能差距，有效缓解灾难性遗忘，确保智能体在所有目标上保持高性能。

【论文2】Constrained Multi-Objective Optimization With Deep Reinforcement Learning Assisted Operator Selection

The illustration of the proposed DQL model

1.研究方法

The flowchart of the proposed DQL-assisted CMOEA framework

该论文提出深度强化学习辅助的在线算子选择框架，把种群的收敛性、多样性和可行性视为状态，候选算子作为动作，种群状态的改善当作奖励；利用深度 Q 网络学习策略来估计动作的 Q 值，根据当前种群状态自适应选择算子，以提升算法性能；将该框架嵌入多种约束多目标优化进化算法（CMOEAs）中，并在多个基准问题上进行实验验证。

2.论文创新点

The final solution sets obtained by DRLOS-EMCMO and other methods on DAS-CMOP9 with the median IGD+ value among 30 runs. The convergence profiles on IGD+ of DRLOS-EMCMO and other methods on CF4, DAS-CMOP1, DOC7, and LIR-CMOP6 with the median IGD+ values among 30 runs.

提出新的DRL模型：针对约束多目标优化问题（CMOPs）的算子选择，提出新的DRL模型，将种群状态、候选算子和种群状态的改善分别定义为状态、动作和奖励，突破了传统方法在处理此类问题时对状态和奖励设计的局限。
设计通用框架：设计的DQL辅助算子选择框架具有通用性，可容纳任意数量的算子，且能嵌入到任何CMOEAs中，为解决CMOPs提供了一种灵活且可扩展的方法，而以往方法大多针对特定问题或算法。
考虑约束和未来性能：所提方法在设计中充分考虑了约束满足和可行性，同时基于DQL能评估所选算子对种群未来的改善，与现有仅依据历史进化评估的方法不同，更适合CMOEAs的进化过程。