多域网络中的决策主导零信任防御解析
1. 基本概念与均衡策略
在相关博弈场景中,$SE$ 代表具有两种纯策略的矩阵博弈的纳什(鞍点)均衡值集合。最后一次迭代的值函数为 $\zeta(\cdot)$。后续需确定涉及 $val(\cdot)$ 算子的反向归纳方程,这仍依赖于利用蒙特卡罗采样方法对 $\mathcal{T}$ 进行计算。
根据引理 1,单调性依然成立,即 ${v_t(\cdot)}_{t\in[T]}$ 是递减的,这可以理解为初始做出的决策最有价值,随着时间推移,机会逐渐消逝。对于任意 $t\in[T]$,定义两个停止时间:
- $\tau_t^ = \inf{t\leq k\leq T|{v_k(X_k) = \zeta(X_k)}\cup{v_k(X_k) = \varphi(X_k)}}$
- $\sigma_t^ = \inf{t\leq k\leq T|{v_k(X_k) = \zeta(X_k)}\cup{v_k(X_k) = \psi(X_k)}}$
定理 2 指出,在特定条件(ADC)下,对于任意初始状态 $x\in\mathcal{X}$,有以下结论:
- 对于每个 $t\in[T]$,以及所有 $\tau\in\mathcal{T} t$,$\sigma\in\mathcal{T}_t$,有 $E[H(\tau, \sigma_t^ )|\mathcal{F}_t]\leq E[H(\tau_t^ , \sigma_t^ )|\mathcal{F}_t]\leq E[H(\tau_t^ , \sigma)|\mathcal{F}_t]$。
超级会员免费看
订阅专栏 解锁全文
25

被折叠的 条评论
为什么被折叠?



