10、理性决策与决策网络：原理、应用与挑战

read5

于 2025-08-23 10:01:22 发布

阅读量18

点赞数

CC 4.0 BY-SA版权

分类专栏：决策算法：智能选择的艺术文章标签：理性决策决策网络最大期望效用

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/read5/article/details/152386294

决策算法：智能选择的艺术专栏收录该内容

50 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

理性决策与决策网络：原理、应用与挑战

1. 最大期望效用原则

在信息不完美的情况下进行理性决策是一个重要问题。假设我们有一个概率模型 $P(s′ | o, a)$，它表示在观察到 $o$ 并采取行动 $a$ 后，世界状态变为 $s′$ 的概率。同时，我们有一个效用函数 $U(s′)$，用于编码我们对结果空间的偏好。

给定观察 $o$ 时采取行动 $a$ 的期望效用为：
$EU(a | o) = \sum_{s′} P(s′ | a, o)U(s′)$

最大期望效用原则指出，理性的决策者应该选择能使期望效用最大化的行动：
$a^* = \arg \max_{a} EU(a | o)$

2. 决策网络

决策网络，有时也称为影响图，是贝叶斯网络的扩展，包含行动节点和效用节点，以便我们能紧凑地表示定义决策问题的概率和效用模型。决策网络由三种类型的节点组成：
- 机会节点：对应一个随机变量，用圆圈表示。
- 行动节点：对应一个决策变量，用方块表示。
- 效用节点：对应一个效用变量，用菱形表示，且不能有子节点。

2.1 雨伞决策示例

假设我们要根据目的地的天气预报来决定是否带伞。观察到的天气预报 $o$ 可能是下雨或晴天，行动 $a$ 是带伞或不带伞，结果状态 $s′$ 是带伞与否和目的地天气的组合。概率模型和效用函数如下：

| 天气预报 | 行动 | 结果状态 | $P(s′ | a, o)$ |
| ---- | ---- | ---- | ---- |
| 预报下雨 | 带伞 | 下雨带伞 | 0.9 |

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。