- 博客(7)
- 收藏
- 关注
原创 论文阅读——基于深度强化学习的层次异构多Agent跨域搜索方法(IF=7.9)
由于目标位置估计策略的输出在轨迹规划策略执行之前会改变环境,因此,不能单独训练两个串联耦合的策略,运动子任务可以依赖于目标随机发生器来训练,在目标估计任务的背景下,当π P在RL训练期间经历变化时,状态转移函数PE的概率性质受到环境变化的影响。RE 2(t)在ηT(t)不在估计区域内的情况下惩罚动作,在ηT(t)在估计区域内的情况下奖励动作,并且在估计区域过大的情况下避免给予奖励,因为可能不会积极地搜索任务。RM 2(t)是对应于UUV的当前运动方向与连接当前位置和MTP的线的方向之间的角度ω的回报。
2025-02-18 21:43:01
957
1
原创 论文阅读——基于改进深度强化学习的多无人艇任务规划方法(IF=8.2)
上述方法将复杂问题分解为若干子问题,基于子问题的目标和约束设计奖励函数,然后相应地分解Q函数,不仅允许每个sub-Q函数基于其对应的子问题的奖励函数进行优化,以更准确地评估策略的性能,而且还有助于提高Critic网络的训练效率,从而加速收敛过程。其中,Own_Critic iσ网络用于逼近Qπθiσ函数,Local_Critic σ网络用于逼近Qπθσ函数。其中,<oσ,t,aσ,t,oσ,t+1>表示在联合观测o σ,t下进行联合行动aσ,t后,将联军中的多USVσ转移到联合观测o σ,t+1的过程。
2025-02-17 17:03:46
804
1
原创 论文阅读——分层多智能体系统上的任务分配:当进化多目标优化遇到DQL时(IF=11.7)
1. 分配给agent联盟Ci的任务ti的执行时间2. agent满意度指数:agent对其回报的评价3. 任务集T的完工时间4. 任务ti的联盟Ci的资源利用率5. 任务集合T的任务分配成功率:如果:1)相应的代理联盟满足任务的要求;2)代理之间没有冲突;3)ti的等待时间和ti的执行时间之和不超过最大持续时间TDti,则称分配成功。6. 总任务等待时间定义算法3可以得到一个最优解集OSS,但实际上对于一个特定的任务分配问题最终只能执行一个解。因此,需找出最终解决方案的选择方法。
2025-02-13 21:20:44
1830
1
原创 论文阅读——MO-MIX:基于深度强化学习的多目标多智能体协作决策(IF=20.8)
为了提高最终解的一致性,对一个包含迄今为止找到的所有非支配解非支配集,在训练阶段,每一集采样一个ω,作为网络的输入。如果某一个子空间中的解比较稀疏,则其中偏好的采样概率会增加,这允许对性能较差的子空间中的权重进行更多次的采样和训练。MOMN将CAN的输出作为输入,首先基于目标对n个智能体的Q向量进行重组,组合对应于某个目标的所有Q值合并馈送到某个MOMN并行轨道中,然后将多个轨迹输出连接为整个网络的输出,输出联合动作值向量。网络的输入:智能体的观察和动作信息,以及表示偏好的偏好向量ω。
2025-02-11 20:21:26
2029
1
原创 Pareto frontier
然而,实际上,真正的帕累托边界通常是不可用的,通常用一组非支配策略近似真实帕累托集。在一个非支配集中,没有一个策略可以在所有目标上都优于其他策略。这种策略对一个目标的任何改进都将导致至少一个其他目标的倒退。在一个多目标决策问题中,没有一个单一的策略可以优化所有的目标。实线上红色的点是最优解,是非支配的,其他点不是最优解,是直接或间接被最优边界上的点支配的。否则,v={3,2,3,4,5}, w={2,3,4,4,6},v不能支配w。例如:v={1,2,3,4,5}, w={2,3,4,4,6},v支配w。
2025-02-10 21:11:42
244
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人