22、基于涌现语义的信息交互与语义标注探索-优快云博客

本文链接：https://blog.youkuaiyun.com/keras9composer/article/details/150625974

基于涌现语义的信息交互与语义标注探索

1. 音乐查询案例分析

在音乐查询场景中，我们通过几个具体的查询案例来了解信息交互的过程。

1.1 查询 3：Agent 2 向 Agent 0 请求更多“派对音乐”

初始请求与分类 ：owner2 想要更多“派对音乐”，请求发给 Agent 0。这是 Agent 2 的首次查询，其字典为空。Agent 2 引入新类别 Band(beatles) 和新标签 8b85235d 来描述请求。
- [0, Agent2]：搜索示例为 [Twist And Shout][I’m Down]，无反例。
- [1, Agent2]：分类失败。
- [2, Agent2]：创建 Category 。
- [3, Agent2]：将 8b85235d 绑定到 Category 。
Agent 0 的处理 ：Agent 0 不认识新标签，向 Agent 2 发出失败信号，Agent 2 发送示例标识符解释标签含义。Agent 0 复用现有类别 Category 描述歌曲并绑定新标签。
- [4, Agent0]：查询 8b85235d。
- [5, Agent0]：解码 8b85235d 失败。
- [6, Agent2]：传输 8b85235d 的示例和反例。
- [7, Agent0]：使用 Category 。
- [8, Agent0]：将 8b85235d 绑定到 Category 。
- [9, Agent0]：再次查询 8b85235d。
- [10, Agent0]：将 8b85235d 解码为 Category 。
- [11, Agent0]：过滤数据，结果为 [Twist And Shout][And I Love Her][Norwegian Wood][Helter Skelter][I’m Down][Blackbird][You Know My Name][Across The Universe][I Feel Fine][Eleanor Rigby]。
用户评估与调整 ：用户仅选择了 10 个结果中的 4 个，信息代理重新分析正例和反例，认为误解了用户选择。引入新分类器 Energy(from 0.523 to 0.745) 及标签 f5af0ee6。
- [12, Agent2]：用户评估，好的结果（4 个）为 [Twist And Shout][I Feel Fine][Helter Skelter][I’m Down]，坏的结果（6 个）为 [Across The Universe][Norwegian Wood][You Know My Name][Eleanor Rigby][Blackbird][And I Love Her]。
- [13, Agent2]：误解用户请求，改用 Category 。
- [14, Agent2]：将 f5af0ee6 绑定到 Category 。
- [15, Agent2]：传输 f5af0ee6 的示例和反例。
- [16, Agent0]：使用 Category 。
- [17, Agent0]：将 f5af0ee6 绑定到 Category 。
再次查询与成功 ：Agent 2 再次查询，两个代理都能编解码标签，符合 Genre(Rock ’n Roll) 的歌曲发送给 Agent 2，3 个结果被认为相关，查询成功。
- [18, Agent0]：查询 f5af0ee6。
- [19, Agent0]：将 f5af0ee6 解码为 Category 。
- [20, Agent0]：过滤数据，结果为 [And I Love Her][I’m Down][Twist And Shout][I Feel Fine]。
- [21, Agent2]：用户评估，好的结果（3 个）为 [Twist And Shout][I Feel Fine][I’m Down]，坏的结果（1 个）为 [And I Love Her]。
- [22, Agent2]：搜索成功。
- [23, Agent2]：更新字典。
- [24, Agent0]：更新字典。

以下是这个过程的 mermaid 流程图：

graph TD;
    A[Agent 2 发起请求] --> B[引入新类别和标签];
    B --> C[Agent 0 不认识标签];
    C --> D[Agent 2 发送示例解释];
    D --> E[Agent 0 复用类别绑定标签];
    E --> F[返回查询结果];
    F --> G[用户评估结果不佳];
    G --> H[Agent 2 引入新分类器和标签];
    H --> I[Agent 0 匹配现有分类器绑定标签];
    I --> J[再次查询并成功];

1.2 所有者 0 修改分类法

查询 3 之后，owner0 编辑了他的数据集，添加了一个名为“elvis”的新文件夹。这表明信息系统的所有者可以随时干预音乐文件的组织，信息代理需要能够妥善应对这些变化。

1.3 查询 4：Agent 2 再次向 Agent 0 请求更多“派对音乐”

初始请求与处理 ：Agent 2 再次请求“派对音乐”，初始请求被分类为 Energy(from 0.523 to 0.745)，复用查询 3 的标签 f5af0ee6。Agent 0 解码标签为 Genre(Rock ’n Roll) 并过滤数据集。
- [0, Agent2]：搜索示例为 [Billie Jean][Twist And Shout][I Feel Fine][Helter Skelter][True Blue][I’m Down]，无反例。
- [1, Agent2]：使用 Category 。
- [2, Agent2]：将 Category 编码为 f5af0ee6。
- [3, Agent0]：查询 f5af0ee6。
- [4, Agent0]：将 f5af0ee6 解码为 Category 。
- [5, Agent0]：过滤数据，结果为 [And I Love Her][I Feel Fine][Amazing Grace][Twist And Shout][I’m Down][Are You Lonesome Tonight][Love Me Tender]。
查询失败与调整 ：大量结果被认为与用户无关，查询失败。Agent 2 认为是 Agent 0 误解了标签，两个代理都降低标签绑定强度。Agent 0 引入新分类器 BPM(from 119.0 to 180.0)。
- [6, Agent2]：用户评估，好的结果（3 个）为 [Twist And Shout][I Feel Fine][I’m Down]，坏的结果（4 个）为 [Are You Lonesome Tonight][Amazing Grace][Love Me Tender][And I Love Her]。
- [7, Agent2]：搜索失败。
- [8, Agent2]：降低绑定强度 [f5af0ee6,Category ,0.5]。
- [9, Agent0]：降低绑定强度 [f5af0ee6,Category ,0.4]。
- [10, Agent2]：传输 f5af0ee6 的示例和反例。
- [11, Agent0]：分类失败。
- [12, Agent0]：创建 Category 。
- [13, Agent0]：将 f5af0ee6 绑定到 Category 。
再次查询与成功 ：标签混淆减少后，查询继续并成功。
- [14, Agent0]：查询 f5af0ee6。
- [15, Agent0]：将 f5af0ee6 解码为 Category 。
- [16, Agent0]：过滤数据，结果为 [I’m Down][I Feel Fine][Let’s Spend the Night Together][Eleanor Rigby][Twist And Shout][Helter Skelter]。
- [17, Agent2]：用户评估，好的结果（5 个）为 [Twist And Shout][I Feel Fine][Helter Skelter][Let’s Spend the Night Together][I’m Down]，坏的结果（1 个）为 [Eleanor Rigby]。
- [18, Agent2]：搜索成功。
- [19, Agent2]：更新字典。
- [20, Agent0]：更新字典。

2. 分类与语义标注方法

在上述案例中，代理引入新类别来区分数据集。每个代理都有一个元数据表，类别被描述为元数据上的谓词。分类器的构建是机器学习领域的一个常见问题，但这里关注的是代理如何利用这些分类器进行信息交互和语义标注。

分类器的判别质量会影响代理之间的通信成功以及字典的演化。然而，类别精度、分类阈值（θdisc）和所有者评估阈值（θfail）对字典收敛和大小的影响还有待研究。

3. 语义标注的传统与新兴方法

目前，实现语义网愿景的主要方法是使用自上而下的方式，即先定义本体，然后用本体为网络资源添加语义标记。但这种方法存在诸多缺点：
- 建立本体困难 ：不同人或应用对网络资源的看法不同，难以建立和维护一个共同的本体。即使建立了本体，也难以跟上网络资源的快速变化。
- 语义标注难以扩展 ：语义标注通常需要手动或半自动完成，难以大规模扩展。

而新兴的“涌现语义”研究提出了一种自下而上的方法，利用现在广泛流行的社交书签服务，用户可以自由选择“标签”对网络资源进行注释和分类，这种非正式的社会分类被称为“大众分类法”。通过大众分类法可以统计推断出全局语义，对网络资源进行语义标注，还能消除标签歧义，将同义词标签分组。

以下是两种方法的对比表格：
| 方法 | 优点 | 缺点 |
| ---- | ---- | ---- |
| 自上而下方法 | 提供共享和机器可理解的语义 | 建立本体困难，难以扩展 |
| 自下而上方法 | 降低入门门槛，反映用户词汇动态，分解标注负担 | 依赖用户行为和数据质量 |

通过这些案例和方法的分析，我们可以看到在信息交互和语义标注领域，自下而上的涌现语义方法具有很大的潜力，但也面临一些挑战，需要进一步的研究和探索。

4. 大众分类法的优势与挑战

大众分类法作为一种自下而上的语义标注方式，具有显著的优势，但也面临着一些挑战。

4.1 大众分类法的优势

降低入门门槛 ：用户可以轻松自由地对网络资源进行标注，无需使用或了解复杂的分类法或本体。这使得更多的用户能够参与到语义标注中来，大大增加了标注数据的来源。
反映用户词汇动态 ：大众分类法直接反映了用户的词汇使用习惯和兴趣变化，能够及时跟上网络资源和用户需求的动态变化。
分解标注负担 ：将整个网络的标注负担分解到每个用户对感兴趣的网络资源的标注上，避免了集中式标注的巨大压力。

4.2 大众分类法的挑战

依赖用户行为和数据质量 ：大众分类法的质量高度依赖于用户的行为和标注数据的质量。如果用户的标注随意或不准确，可能会导致语义标注的混乱。
缺乏全局一致性 ：由于用户可以自由选择标签，不同用户可能会使用不同的标签来描述相同或相似的资源，缺乏全局的一致性。

以下是大众分类法优势和挑战的列表总结：
| 方面 | 详情 |
| ---- | ---- |
| 优势 | 降低入门门槛、反映用户词汇动态、分解标注负担 |
| 挑战 | 依赖用户行为和数据质量、缺乏全局一致性 |

5. 从大众分类法推断全局语义的流程

从大众分类法推断全局语义是实现语义标注的关键步骤，其流程如下：
1. 收集标签数据 ：收集用户在社交书签服务中使用的标签数据。
2. 数据预处理 ：对收集到的标签数据进行清洗和预处理，去除噪声和无效标签。
3. 统计分析 ：通过统计分析方法，挖掘标签之间的关系，如共现关系等。
4. 语义推断 ：根据统计分析结果，推断出全局语义，消除标签歧义，将同义词标签分组。
5. 层次关系识别 ：利用更高级的概率模型，识别出涌现概念之间的层次关系。

以下是这个流程的 mermaid 流程图：

graph TD;
    A[收集标签数据] --> B[数据预处理];
    B --> C[统计分析];
    C --> D[语义推断];
    D --> E[层次关系识别];

6. 总结与展望

在信息交互和语义标注领域，自上而下的本体定义和标注方法存在建立困难和难以扩展的问题，而自下而上的大众分类法和涌现语义方法则具有降低门槛、反映动态和分解负担等优势。通过音乐查询案例，我们看到了代理之间如何通过交互和调整分类器来实现信息的有效查询和语义的逐渐明确。

然而，自下而上的方法也面临着一些挑战，如依赖用户行为和数据质量、缺乏全局一致性等。未来的研究需要进一步探索如何提高大众分类法的质量和一致性，以及如何更好地从大众分类法中推断出准确的全局语义。同时，还需要研究类别精度、分类阈值和所有者评估阈值等因素对字典收敛和大小的影响，以优化语义标注的效果。

总之，涌现语义和大众分类法为语义标注提供了一种新的思路和方法，具有很大的发展潜力，但需要更多的研究和实践来完善和推广。