统计与战略决策及含观测的决策问题解析
1. 统计与战略决策基础
在决策问题中,我们常常面临着未知的结果或参数,需要依据一定的信息来做出最优决策。这里先介绍一些基本概念和相关理论。
1.1 效用与遗憾值
首先来看一个简单的例子,有如下的效用表:
| | ω1 | ω2 |
| — | — | — |
| a1 | 1 | -1 |
| a2 | 0 | 0 |
这里的 (U) 表示效用,(\omega) 代表可能的状态,(a) 表示我们可以采取的行动。同时,有一个重要的备注:(L(\omega, \sigma) = -U(\omega, \sigma)) 当且仅当 (\max_{a} U(\omega, a) = 0)。证明过程如下:如果 (\max_{\sigma’} U(\omega, \sigma’) - U(\omega, \sigma) = -U(\omega, \sigma)),那么 (\max_{\sigma’} U(\omega, \sigma’) = \max_{a} U(\omega, a) = 0),反之亦然。
对于一个策略 (\sigma) 的最大遗憾值,以这个简单的例子来说,其遗憾值表如下:
| | ω1 | ω2 |
| — | — | — |
| a1 | 0 | 1 |
| a2 | 1 | 0 |
策略 (\sigma) 的最大遗憾值可以表示为:
(\max_{\omega} L(\omega, \sigma) = \max_{\omega} \sum_{a} \sigma(a)L(\omega,
超级会员免费看
订阅专栏 解锁全文
2177

被折叠的 条评论
为什么被折叠?



