理性决策与决策网络:原理、应用与挑战
1. 最大期望效用原则
在信息不完美的情况下进行理性决策是一个重要问题。假设我们有一个概率模型 $P(s′ | o, a)$,它表示在观察到 $o$ 并采取行动 $a$ 后,世界状态变为 $s′$ 的概率。同时,我们有一个效用函数 $U(s′)$,用于编码我们对结果空间的偏好。
给定观察 $o$ 时采取行动 $a$ 的期望效用为:
$EU(a | o) = \sum_{s′} P(s′ | a, o)U(s′)$
最大期望效用原则指出,理性的决策者应该选择能使期望效用最大化的行动:
$a^* = \arg \max_{a} EU(a | o)$
2. 决策网络
决策网络,有时也称为影响图,是贝叶斯网络的扩展,包含行动节点和效用节点,以便我们能紧凑地表示定义决策问题的概率和效用模型。决策网络由三种类型的节点组成:
- 机会节点:对应一个随机变量,用圆圈表示。
- 行动节点:对应一个决策变量,用方块表示。
- 效用节点:对应一个效用变量,用菱形表示,且不能有子节点。
2.1 雨伞决策示例
假设我们要根据目的地的天气预报来决定是否带伞。观察到的天气预报 $o$ 可能是下雨或晴天,行动 $a$ 是带伞或不带伞,结果状态 $s′$ 是带伞与否和目的地天气的组合。概率模型和效用函数如下:
| 天气预报 | 行动 | 结果状态 | $P(s′ | a, o)$ |
| ---- | ---- | ---- | ---- |
| 预报下雨 | 带伞 | 下雨带伞 | 0.9 |
超级会员免费看
订阅专栏 解锁全文
27

被折叠的 条评论
为什么被折叠?



