复杂环境搜索
不确定性的环境
此处的不确定性指的是动作结果的不确定性,此处假设环境是完全可观察的
即Agent做一个动作,可能会导致多个结果出现
因此对应于转移模型就会有多个状态,如下图中执行suck这个动作,可能会得到5这个状态也可能得到7这个状态
因此现在的解不再是动作序列,而是一个条件规划
因为我此刻不知道我现在是属于什么状态,所以我必须加上条件,来确定我在哪个状态,从而执行相应的动作,这就意味着解是以”树“的形式出现
下面介绍一下与或树的概念
与或树:即将所有可能的预测和更新进行组合,其中方块代表或结点,圆块代表与结点
我们在或结点上选择动作,我们每选择一个动作都会得到对应的状态,这样的状态可能有多个,我们需要为这里所有可能得到的状态继续找到它们所对应的规划。
综上
在或结点上确定一个动作,只要有一个动作导致成功,就有解,解的形式就是一棵子树
在与结点上为所有状态找到规划,只要有一个状态失败,整体就失败