有限博弈中的策略度量与移动进程的契约理论
一、有限博弈中的策略度量
1.1 最优无记忆多策略与折扣惩罚
在有限博弈中,存在一个关于最优无记忆多策略的重要定理。对于具有折扣惩罚的最优可达性问题,存在一个真正的最优无记忆多策略,这意味着必然存在一个多策略,其在所有结果上的折扣惩罚小于或等于某个值 ( c )。
定理 10 表明,具有折扣惩罚的最优可达性问题属于 ( NP \cap coNP ) 复杂度类,并且是 ( PTIME ) 困难的。此外,这一结果可以扩展到具有可达性目标的折扣成本博弈中,这类博弈允许由两个无记忆策略组成的近似最优策略,相应的决策问题等价于经典的折扣回报博弈。
1.2 多策略的平均惩罚
我们还定义了多策略 ( \sigma ) 从状态 ( v ) 开始的平均惩罚 ( mean penalty(\sigma, v) ),其定义为 ( sup{mean penalty_{\sigma}(\varrho) | \varrho \in Out_G(\sigma, v), \varrho \ maximal} ),其中:
[
mean penalty_{\sigma}(\varrho) =
\begin{cases}
\frac{penalty_{\sigma}(\varrho)}{|\varrho|} & \text{if } |\varrho| < \infty \
\limsup_{n \to +\infty} mean penalty_{\sigma}(\varrho_{|\leq n}) & \text{otherwise}
\end
超级会员免费看
订阅专栏 解锁全文
1334

被折叠的 条评论
为什么被折叠?



