决策问题与Julia编程基础
1. 决策问题分析
1.1 哭闹宝宝问题
在照顾宝宝的场景中,有喂食、唱歌和忽略三种行为,不同行为对宝宝状态(饥饿或饱腹)的转变和宝宝哭闹的观察有不同影响。
- 状态转变动态 :
- 喂食总是能让饥饿的宝宝饱腹,即 (T(sated | hungry, feed) = 100\%);
- 唱歌和忽略时,饥饿的宝宝仍保持饥饿,即 (T(hungry | hungry, sing) = 100\%),(T(hungry | hungry, ignore) = 100\%);
- 饱腹时,唱歌和忽略有 (10\%) 的概率让宝宝变饥饿,即 (T(hungry | sated, sing) = 10\%),(T(hungry | sated, ignore) = 10\%)。
- 观察动态 :
- 宝宝饥饿时,喂食、唱歌和忽略对应的哭闹概率分别为 (O(cry | feed, hungry) = 80\%),(O(cry | sing, hungry) = 90\%),(O(cry | ignore, hungry) = 80\%);
- 宝宝饱腹时,喂食和忽略对应的哭闹概率为 (10\%),唱歌时哭闹概率为 (0\%),即 (O(cry | feed, sated) = 10\%),(O(cry | sing, sated) = 0\%),(O(cry | ignore, sated) = 10\%)。
- 奖励函数 :宝宝饥饿时给予 (-10) 的奖励,喂食额外增加 (-5) 的
超级会员免费看
订阅专栏 解锁全文
753

被折叠的 条评论
为什么被折叠?



