17、安全博弈中在线学习与均衡计算的结合研究

安全博弈中在线学习与均衡计算的结合研究

1. 实验设置

在安全博弈的实验中,若未特别说明,采用的游戏模型为 (K = 8)(8 个区域)和 (N = 1000)(1000 轮)。在边境巡逻场景里,1 轮可视为 1 天,那么 1000 轮的游戏大约代表 3 年时间。为获取可靠结果,所有实验均进行 1000 次。每次运行时,会为攻击者生成一个新的偏好向量,其每个值独立同分布且取值范围为 ((0, 1))。防御者已知的估计偏好向量是通过给每个条目加上区间 ((-ϵ, ϵ)) 内的随机数计算得出。学习算法的探索参数 (γ) 手动调整为 (γ = 0.2),即 20% 的探索率。

2. 不精确 Stackelberg 均衡策略
  • 误差对策略性能的影响 :测试了区域偏好向量中不同误差水平((ϵ))对估计的 Stackelberg 均衡策略(SSE)性能的影响。观察 (ϵ ∈ [0, 0.2]) 时 SSE 策略的性能,发现对抗性攻击者能够学习该策略,随着时间推移,捕获率会下降。特别是当 (ϵ) 值较高时,性能会大幅下降。当 (ϵ ≥ 0.15) 时,性能甚至比随机防御策略还差,随机防御策略的预期收益为 12.5%。而无误差的 SSE 策略即使在攻击者学习到策略后,性能仍然很好。后续实验聚焦于误差 (ϵ = 0.1),此时博弈论策略优于随机策略,但仍有改进空间,该实验中最宽的 95% 置信区间为误差 (ϵ = 0.1) 时的 ±0.56%。
误差水平((ϵ)) 性能表现
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值