29、不完美信息博弈的近似方法研究

不完美信息博弈的近似方法研究

在不完美信息博弈的研究中,我们致力于探索有效的近似模型和算法,以解决实际应用中的复杂问题。下面将详细介绍相关的研究内容,包括线性规划、网络拓扑、算法实验等方面。

1. 线性规划与均衡分析

在博弈分析中,线性规划(LP)相较于混合整数线性规划(MILP)对解的限制更弱。LP并不限制攻击者采用纯最优响应策略,其目标与MILP相同,都是最大化防御者的效用,且不会排除博弈的任何安全 Stackelberg 均衡(SSE)。LP 的值 SSEUB 是防御者在采用 SSE 策略时预期效用的上界。

然而,将博弈表述为 LP 存在一个缺点,即需要提前为每个网络找到所有(指数级数量)的攻击策略(AP)。为了减少这个数量,我们仅考虑每个信息集下可理性化的 AP。可理性化的 AP 是指攻击者对某个信息集(IS)中网络的某种信念的最优响应。所有可理性化 AP 的集合被称为理性行为封闭集(CURB)。只考虑攻击者的 CURB 集不会排除任何 SSE,因为 SSE 中的任何 AP 都是攻击者的最优响应集合,必然是可理性化的,因此也必然在 CURB 集中。

从 LP 结果中,我们可以提取防御者的策略,将其表示为每个防御者行动的边际概率。防御者在状态 $x \in X$ 中采取行动 $y \in Y$ 的概率为 $\sum_{s \in SI(x,y)} P_{xys}$,我们将这种混合策略称为 $\sigma_{CCE}^d$,并将策略组合中防御者的效用 $u_d(\sigma_{CSE}^d, BR_a(\sigma_{CSE}^d))$ 称为相关 Stackelberg 均衡(CSE)。

2. 多网络的 CURB 计算
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值