安全博弈中在线学习与均衡计算的结合研究
1. 实验设置
在安全博弈的实验中,若未特别说明,采用的游戏模型为 (K = 8)(8 个区域)和 (N = 1000)(1000 轮)。在边境巡逻场景里,1 轮可视为 1 天,那么 1000 轮的游戏大约代表 3 年时间。为获取可靠结果,所有实验均进行 1000 次。每次运行时,会为攻击者生成一个新的偏好向量,其每个值独立同分布且取值范围为 ((0, 1))。防御者已知的估计偏好向量是通过给每个条目加上区间 ((-ϵ, ϵ)) 内的随机数计算得出。学习算法的探索参数 (γ) 手动调整为 (γ = 0.2),即 20% 的探索率。
2. 不精确 Stackelberg 均衡策略
- 误差对策略性能的影响 :测试了区域偏好向量中不同误差水平((ϵ))对估计的 Stackelberg 均衡策略(SSE)性能的影响。观察 (ϵ ∈ [0, 0.2]) 时 SSE 策略的性能,发现对抗性攻击者能够学习该策略,随着时间推移,捕获率会下降。特别是当 (ϵ) 值较高时,性能会大幅下降。当 (ϵ ≥ 0.15) 时,性能甚至比随机防御策略还差,随机防御策略的预期收益为 12.5%。而无误差的 SSE 策略即使在攻击者学习到策略后,性能仍然很好。后续实验聚焦于误差 (ϵ = 0.1),此时博弈论策略优于随机策略,但仍有改进空间,该实验中最宽的 95% 置信区间为误差 (ϵ = 0.1) 时的 ±0.56%。
| 误差水平((ϵ)) | 性能表现 |
|---|
超级会员免费看
订阅专栏 解锁全文
738

被折叠的 条评论
为什么被折叠?



