21、基于遗憾的解决方案:最大化遗憾的价值

基于遗憾的解决方案:最大化遗憾的价值

在安全博弈领域,准确预测对手行为并有效应对收益不确定性是关键挑战。本文围绕多个行为模型的比较以及两种算法(ARROW 和 ARROW - Perfect)展开,旨在解决这些问题。

1. 行为模型比较

为了找到最适合预测对手行为的模型,我们对 13 种行为模型进行了比较,具体如下:
- SUQR - 3 :具有三个特征的 SUQR 模型,包括覆盖概率、偷猎者奖励(等同于动物密度)和统一的偷猎者惩罚。
- SUQR - 4 :具有四个特征的 SUQR 模型,除了上述三个特征外,还包括到目标位置的距离。
- QR :一种特定的行为模型。
- ϵ - 最优模型 :有八个版本,对手以相等概率选择攻击效用值在最优目标效用值 ϵ 范围内的目标。
- 随机对手模型 :对手随机选择攻击目标。
- 完全理性模型 :确定性地分类哪个目标会被攻击。

我们使用乌干达数据集进行实验,从 2352 次总攻击中随机抽样 20%作为测试数据,其余 80%用于训练 SUQR - 3、SUQR - 4 和 QR 模型。通过绘制接收者操作特征(ROC)曲线分析各模型性能,结果如下表所示:
| 模型 | AUC 值 |
| ---- | ---- |
| SUQR - 4 | 0.73 |
| QR | 0.67 |
| SUQR - 3 | 0.67

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值