基于深度强化学习的资源感知入侵响应与智能互联网探测技术
1. 基于深度强化学习的资源感知入侵响应
在软件定义网络(SDN)的互联网战场物联网(IoBT)环境中,需要有效的入侵响应策略。传统的深度Q网络(DQN)在处理被检测为受损/故障的节点(NDCF)时存在问题。当为每个NDCF采取行动时,DQN代理假设其他NDCF节点未受损/故障,并基于此假设估计系统状态,这会阻碍准确估计Q函数值,从而影响学习最优行动。
而策略梯度方法,如Actor - Critic(AC),旨在直接从策略和基于所采取行动估计的相应奖励中识别最优行动,收敛到最优策略的速度比基于值的方法更快。不同深度强化学习(DRL)算法的性能顺序为:PPO ≥ Actor - Critic ≥ DQN ≥ Random。
1.1 不同攻击严重程度下的DRL策略效果
- 平均无故障时间(MTTSF) :当攻击敌意非常低(Pa = 0.2)时,所有DRL算法下的MTTSF几乎相同。但随着Pa增加,环境更具敌意,MTTSF受到显著影响。PPO由于在动态环境中的高收敛性表现最佳,DQN的表现也尚可,部分原因是MTTSF基于任务持续时间(即回合数)估计,相对较短,即使在DQN学习不佳的情况下,大多数回合在系统故障前就已完成。
- 消息正确传递率(PMD) :比较算法在PMD方面的性能顺序与MTTSF一致。随着Pa增加,所有算法下的PMD总体呈下降趋势。PPO和Actor - Critic的表现明显优于DQN和Random,这是因为奖励函数更侧重于优化存在攻击者时的性能,而MTTSF受任务持续时间影响更大。
超级会员免费看
订阅专栏 解锁全文
1260

被折叠的 条评论
为什么被折叠?



