38、基于偏好的蒙特卡罗树搜索与概率信念修正

最新推荐文章于 2025-11-04 09:33:43 发布

yolo5detector

最新推荐文章于 2025-11-04 09:33:43 发布

阅读量47

点赞数

CC 4.0 BY-SA版权

分类专栏：解读《KI 2018：人工智能的进展》文章标签：蒙特卡罗树搜索 PB-MCTS H-MCTS

本文链接：https://blog.youkuaiyun.com/yolo5detector/article/details/149374597

解读《KI 2018：人工智能的进展》专栏收录该内容

46 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于偏好的蒙特卡罗树搜索与概率信念修正

1 基于偏好的蒙特卡罗树搜索

1.1 8 数码问题概述

8 数码问题是一个经典的滑动拼图游戏，玩家可以将空白方块与相邻数字交换位置。该问题的起始状态和目标状态是明确的，但并不保证能找到目标状态，因此属于无限期问题。为了限制运行时间，评估会在 100 个时间步后终止，这种情况下游戏对智能体来说算作失败，且智能体并不知道这个最大步数限制。

1.2 启发式方法

1.2.1 曼哈顿距离（MD）

曼哈顿距离是对到达目标状态所需最小移动步数的乐观估计，其定义为：
[H_{manhattan}(s) = \sum_{i = 0}^{8} |pos(s, i) - goal(i)|_1]
其中，(pos(s, i)) 是游戏状态 (s) 中数字 (i) 的 ((x, y)) 坐标，(goal(i)) 是其在目标状态中的位置，(|\cdot|_1) 指的是 1 - 范数或曼哈顿范数。

1.2.2 带线性冲突的曼哈顿距离（MDC）

MDC 是 MD 的一种变体，它额外检测并惩罚线性冲突。当两个数字 (i) 和 (j) 在它们所属的行上，但位置互换时，就会发生线性冲突。对于每个这样的线性冲突，MDC 会将 MD 估计值增加 2，因为解决线性冲突至少需要一个数字离开其目标行（第 1 步），为第二个数字腾出空间，然后再移回该行（第 2 步）。最终的启发式方法仍然是可采纳的，即它永远不会高估实际所需的移动步数。

1.3 偏好设定

为了处理搜索过程中的无限期问题，PB - MCTS 和 H - MCTS 都依赖相同的启发式评估函数，该函数在模拟达到给定深度限制后调用。为了便于比较，两种算法在评估非终端状态时使用相同的启发式方法，但 PB - MCTS 不观察确切值，而是观察从返回值中得出的偏好。比较动作 (a_i) 和 (a_j) 会根据相应的模拟产生终端或启发式奖励 (r_i) 和 (r_j)，从这些奖励值中得出偏好：
((a_k \succ a_l) \Leftrightarrow (r_k > r_l)) 且 ((a_k \simeq a_l) \Leftrightarrow (r_k = r_l))
这些偏好作为 PB - MCTS 的反馈，而 H - MCTS 可以直接观察奖励值 (r_i)。

1.4 参数设置

H - MCTS 和 PB - MCTS 都受到以下超参数的影响：
- 模拟长度 ：每次模拟最多执行的动作数量（测试值：5、10、25、50）。
- 探索 - 利用权衡 ：H - MCTS 的 (C) 参数和 PB - MCTS 的 (\alpha) 参数（测试范围：从 0.1 到 1，分 10 步）。
- 每步允许的转移函数样本数（#samples） ：这是一个与硬件无关的参数，用于限制智能体每步的时间（测试范围：以对数尺度从 (10^2) 到 (5 \times 10^6)，分 10 步）。

对于每个参数组合，会执行 100 次运行。#samples 被视为问题域的参数，因为它与可用的计算资源相关，而模拟长度和权衡参数会进行优化。

1.5 实验结果

1.5.1 调优后：最大性能

在固定每步转移函数样本数的情况下，比较所有可能的超参数组合的最大胜率。当样本数较少（(\leq 1000)）时，两种算法大多会输掉游戏，但 H - MCTS 在该区域的性能略好。超过这个阈值后，H - MCTS 不再优于 PB - MCTS，相反，PB - MCTS 通常能获得比 H - MCTS 略高的胜率。

1.5.2 未调优：更稳健但收敛较慢

分析非最优超参数配置下的胜率分布。结果表明，对于 PB - MCTS，80% 百分位线接近最优配置曲线，而 H - MCTS 相应的两条曲线之间存在明显差距。特别是在约 (2 \times 10^5) 个样本附近，H - MCTS 的胜率下降明显，这表明 H - MCTS 在大多数超参数设置下容易陷入局部最优。而 PB - MCTS 似乎不太容易受到这个问题的影响，因为其胜率下降没有那么迅速。然而，未调优的 PB - MCTS 在高 #sample 值时的收敛速度似乎比未调优的 H - MCTS 慢，这可能是由于 PB - MCTS 中每轮模拟的轨迹呈指数增长。

1.6 总结

PB - MCTS 是蒙特卡罗树搜索的一种新变体，能够处理基于偏好的反馈。与传统的 MCTS 不同，该算法使用相对 UCB 作为核心组件。评估结果表明，H - MCTS 和 PB - MCTS 的性能强烈依赖于适当的超参数调优。PB - MCTS 更能应对次优参数配置和错误的启发式方法，尤其是在样本数较少的情况下，而 H - MCTS 在高值时具有更好的收敛速度。目前正在研究能够在不改变每个节点反馈的情况下修剪二叉子树的技术，以进一步提高性能并减少指数增长。

2 基于世界相似度模证据的概率信念修正

2.1 引言

相似度在提供不同类型信念变化的语义方面起着关键作用。虽然直观上相似度是一个上下文敏感的概念，但目前提出的相似度解释大多对上下文不敏感。我们提出一种上下文敏感的相似度解释，在处理信念变化时，认为认知输入提供了所需的上下文。基于这种对证据敏感的相似度，我们开发并研究了两种概率信念变化的解释。

2.2 背景知识

2.2.1 逻辑基础

我们使用有限生成的经典命题逻辑，设 (P = {q, r, s, …}) 是一个有限的原子集。一个世界 (w) 是对 (P) 中所有原子的唯一真值赋值。一个智能体可能会考虑可能世界的某个非空子集 (W = {w_1, w_2, …, w_n})。设 (L) 是由 (P) 和逻辑连接词 (\land) 和 (\neg) 组成的所有命题公式，(\top) 表示重言式，(\bot) 表示矛盾式。

2.2.2 信念状态

智能体信念的基本语义元素是概率分布或信念状态 (B = {(w_1, p_1), (w_2, p_2), …, (w_n, p_n)})，其中 (p_i) 是智能体认为 (w_i) 是实际世界的置信度（概率），且 (\sum_{(w,p) \in B} p = 1)。

2.2.3 经典扩展与贝叶斯条件化

经典扩展（(+)）是 (K \cup {\alpha}) 的逻辑结果，其中 (\alpha) 是新信息，(K) 是当前信念集。一种观点认为概率扩展（受限修正）等同于贝叶斯条件化（BC），其定义为：
[B_{BC}^{\alpha} := {(w, p) | w \in W, p = B(w | \alpha), B(\alpha) \neq 0}]
其中 (B(w | \alpha) = \frac{B(\varphi_w \land \alpha)}{B(\alpha)})，(\varphi_w) 是识别 (w) 的句子。需要注意的是，当 (B(\alpha) = 0) 时，(B_{BC}^{\alpha} = \varnothing)，这意味着 BC 在这种情况下是未定义的。

2.2.4 刘易斯成像

刘易斯成像用于信念状态的修正，要求对于每个世界 (w \in W)，对于给定的证据 (\alpha)，存在一个唯一的“最接近”世界 (w_{\alpha} \in Mod(\alpha))。其定义为：
[B_{LI}^{\alpha} := {(w, p) | w \in W, p = 0 \text{ if } w \not\models \alpha, \text{ else } p = \sum_{v \in W | v_{\alpha} = w} B(v)}]
其中 (v_{\alpha}) 是 (v) 最接近的 (\alpha) - 世界。这种成像方法仅转移概率，(B_{LI}^{\alpha}) 中的概率总和为 1，无需归一化。

2.2.5 广义成像

为了放松每个世界都有唯一最接近 (\alpha) - 世界的强要求，Rens 等人引入了广义成像（GI）。他们使用伪距离函数 (d : W \times W \to Z)，该函数满足非负性、同一性、对称性和三角不等式。广义成像的定义为：
[B_{GI}^{\alpha} := {(w, p) | w \in W, p = 0 \text{ if } w \not\models \alpha, \text{ else } p = \sum_{w’ \in W | w \in Min(\alpha, w’, d)} \frac{B(w’)}{|Min(\alpha, w’, d)|}}]
其中 (Min(\alpha, w, d)) 是相对于伪距离 (d) 最接近 (w) 的 (\alpha) - 世界的集合。

2.3 相似度模证据（SME）

我们定义了相似度模证据（SME）算子，它采用一族相似度函数。SME 修正应被视为概率信念修正的推广。我们证明了存在一种相似度函数的实例，使得 SME 等同于贝叶斯条件化，并且存在与已知成像版本等价的 SME 版本。

2.4 基于谢泼德定律的 SME 修正

谢泼德提出了一个“通用泛化定律”，用于将差异/距离度量转换为在适当缩放的心理空间中的相似度度量。假设“适当的尺度”是概率尺度 ([0, 1])，“心理空间”是可能世界的认知概念，那么谢泼德的相似度定义可以很容易地应用于形式认识论的可能世界方法，并适合我们的 SME 方法。我们提出了一种基于谢泼德泛化定律的 SME 修正版本。

2.5 组合 SME 修正算子

由于条件化和基于谢泼德的 SME 修正（SSR）都有理想和不理想的属性，我们提出了两种组合 SME 修正算子，以最大化它们的理想属性。
- 切换算子 ：根据新证据是否与当前信念状态一致，在 BC 和 SSR 之间切换。
- 平滑变化算子 ：根据新证据与当前信念状态的一致程度，在 BC 和 SSR 之间平滑变化。

两种组合算子都满足三个核心合理性公设，但只有切换算子满足所有六个提出的公设。

2.6 总结

我们提出了一种新的成像推广方法，即基于世界相似度模证据的概率信念修正方法。通过结合贝叶斯条件化和基于谢泼德定律的 SME 修正，我们开发了两种组合算子，以应对不同情况下的信念修正问题。这些方法在处理证据与当前信念不一致的情况时具有优势，并且在满足一定合理性公设方面表现良好。未来的研究可以进一步探索如何优化这些方法，以提高其在实际应用中的性能。

总结

本文介绍了基于偏好的蒙特卡罗树搜索（PB - MCTS）和基于世界相似度模证据的概率信念修正两种方法。PB - MCTS 在处理 8 数码问题时，通过偏好设定和启发式方法，在调优和未调优情况下都展现出了一定的性能特点。而概率信念修正方法则针对传统贝叶斯条件化在证据与当前信念不一致时的局限性，提出了基于相似度的成像方法，并开发了组合算子来优化信念修正过程。这些方法在人工智能的搜索和推理领域具有重要的应用价值。

以下是相关内容的表格总结：
|方法|适用场景|核心概念|优点|缺点|
| ---- | ---- | ---- | ---- | ---- |
|PB - MCTS|8 数码问题等搜索问题|偏好设定、启发式方法|能应对次优参数配置，样本数较多时胜率较好|未调优时收敛慢|
|贝叶斯条件化（BC）|概率信念修正|条件概率|简单直接|证据与当前信念不一致时未定义|
|刘易斯成像（LI）|概率信念修正|世界最接近性|能处理零先验问题|要求每个世界有唯一最接近世界|
|广义成像（GI）|概率信念修正|伪距离函数|放松了 LI 的强要求|计算复杂度可能较高|
|SME 修正|概率信念修正|相似度模证据|可推广，能与多种方法等价|依赖相似度函数的选择|
|组合 SME 修正算子|概率信念修正|结合 BC 和 SSR|满足一定合理性公设|部分算子不能满足所有公设|

以下是 PB - MCTS 和 H - MCTS 实验结果的 mermaid 流程图：

graph LR
    A[样本数 <= 1000] --> B{H - MCTS 性能略好}
    A --> C{PB - MCTS 性能略差}
    D[样本数 > 1000] --> E{H - MCTS 不再占优}
    D --> F{PB - MCTS 胜率略高}

以下是概率信念修正方法的 mermaid 流程图：

graph LR
    A[新证据] --> B{与当前信念一致?}
    B -->|是| C[贝叶斯条件化（BC）]
    B -->|否| D{采用成像方法}
    D --> E[刘易斯成像（LI）/广义成像（GI）]
    D --> F[SME 修正]
    F --> G{组合算子}
    G --> H[切换算子]
    G --> I[平滑变化算子]

3 方法对比与分析

3.1 PB - MCTS 与 H - MCTS 对比

PB - MCTS 和 H - MCTS 在处理 8 数码问题时，各有优劣。下面从不同方面对它们进行详细对比：
|对比维度|PB - MCTS|H - MCTS|
| ---- | ---- | ---- |
|调优后性能|样本数超过 1000 时，胜率通常略高于 H - MCTS|样本数较少（≤1000）时，性能略好|
|未调优稳定性|对非最优超参数配置更稳健，不易陷入局部最优|容易陷入局部最优，胜率下降明显|
|收敛速度|未调优时，高样本值下收敛速度较慢|未调优时，高样本值下收敛速度相对较快|

从上述对比可以看出，两种算法的性能受超参数调优的影响较大。在实际应用中，如果计算资源有限，样本数较少，H - MCTS 可能是更好的选择；而当样本数较多时，PB - MCTS 能展现出更好的性能。

3.2 概率信念修正方法对比

不同的概率信念修正方法在处理证据与当前信念关系时，表现出不同的特点。以下是几种方法的对比：
|方法|处理证据不一致情况|计算复杂度|合理性公设满足情况|
| ---- | ---- | ---- | ---- |
|贝叶斯条件化（BC）|证据与当前信念不一致时未定义|低|部分满足|
|刘易斯成像（LI）|能处理零先验问题|适中|部分满足|
|广义成像（GI）|能处理零先验问题|较高|部分满足|
|基于谢泼德的 SME 修正（SSR）|有一定处理能力|适中|部分满足|
|切换算子|根据证据一致性切换，能处理不一致情况|适中|满足所有六个公设|
|平滑变化算子|根据证据一致程度平滑变化，能处理不一致情况|适中|满足三个核心公设|

通过对比可知，传统的贝叶斯条件化在证据与当前信念不一致时存在局限性，而成像方法和 SME 修正方法能更好地应对这种情况。组合算子在满足合理性公设方面表现较好，尤其是切换算子能满足所有提出的公设。

4 操作步骤与建议

4.1 PB - MCTS 和 H - MCTS 参数调优步骤

确定参数范围 ：
- 模拟长度：选择 5、10、25、50 进行测试。
- 探索 - 利用权衡：H - MCTS 的 (C) 参数和 PB - MCTS 的 (\alpha) 参数，测试范围从 0.1 到 1，分 10 步。
- 每步允许的转移函数样本数（#samples）：以对数尺度从 (10^2) 到 (5 \times 10^6)，分 10 步。
组合参数并运行实验 ：
- 对每个参数组合执行 100 次运行。
- 记录每次运行的胜率。
选择最优参数组合 ：
- 根据记录的胜率，选择胜率最高的参数组合作为最优配置。

4.2 概率信念修正方法选择建议

证据与当前信念一致 ：优先考虑贝叶斯条件化，因为其计算复杂度低，简单直接。
证据与当前信念不一致 ：
- 如果对计算复杂度要求不高，且希望满足更多合理性公设，可选择切换算子。
- 如果希望根据证据一致程度平滑调整修正方式，可选择平滑变化算子。
- 也可以考虑刘易斯成像或广义成像方法，它们能处理零先验问题。

5 未来展望

虽然本文介绍的方法在处理搜索和信念修正问题上取得了一定的成果，但仍有一些方面可以进一步研究和改进。

5.1 PB - MCTS 改进

目前 PB - MCTS 存在未调优时收敛速度慢的问题，未来可以研究更有效的超参数调优策略，或者开发新的算法来减少每轮模拟轨迹的指数增长，提高其在未调优情况下的性能。

5.2 概率信念修正方法优化

对于概率信念修正方法，可以继续探索如何优化组合算子，使其在满足更多合理性公设的同时，进一步降低计算复杂度。还可以研究如何更好地利用相似度函数，提高信念修正的准确性。

5.3 实际应用拓展

将这些方法应用到更广泛的实际场景中，如机器人导航、智能决策系统等，验证其在不同环境下的性能，并根据实际应用的反馈不断改进方法。

总结

本文详细介绍了基于偏好的蒙特卡罗树搜索（PB - MCTS）和基于世界相似度模证据的概率信念修正两种方法。通过对它们的原理、实验结果、方法对比和操作步骤的分析，我们了解到这些方法在人工智能的搜索和推理领域具有重要的应用价值。在实际应用中，需要根据具体的问题场景和需求，选择合适的方法和参数配置。未来的研究可以进一步优化这些方法，拓展其应用范围，为人工智能的发展提供更强大的工具。

以下是 PB - MCTS 和 H - MCTS 参数调优的 mermaid 流程图：

graph LR
    A[确定参数范围] --> B[组合参数]
    B --> C[运行 100 次实验]
    C --> D[记录胜率]
    D --> E[选择最优参数组合]

以下是概率信念修正方法选择的 mermaid 流程图：

graph LR
    A[证据与当前信念关系] --> B{一致?}
    B -->|是| C[贝叶斯条件化（BC）]
    B -->|否| D{选择成像或组合算子}
    D --> E[刘易斯成像（LI）/广义成像（GI）]
    D --> F[切换算子]
    D --> G[平滑变化算子]