26、知识筛选器中的新兴语义探索

最新推荐文章于 2025-11-10 10:50:05 发布

keras9composer

最新推荐文章于 2025-11-10 10:50:05 发布

阅读量36

点赞数

CC 4.0 BY-SA版权

分类专栏：数据语义学的新纪元：从理论到应用文章标签：知识筛选器语义搜索数据-DNA

本文链接：https://blog.youkuaiyun.com/keras9composer/article/details/150626003

数据语义学的新纪元：从理论到应用专栏收录该内容

26 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

知识筛选器中的新兴语义探索

1. 知识筛选器的核心组件

知识筛选器（Knowledge Sifter）在信息检索和处理中扮演着重要角色，它由多个关键组件协同工作，以满足用户的查询需求。
- 排序代理（Ranking Agent） ：负责汇总来自不同数据源的子查询结果，并根据用户偏好对这些结果进行排序。用户偏好由偏好代理（Preferences Agent）提供，排序时会考虑数据源的权威性（通过权重，即 0 到 10 之间的数字表示）以及查询中术语的权重。
- 数据源和网络服务 ：目前，知识筛选器主要参考两个数据源，即 Lycos 图像和 TerraServer。
- Lycos 图像 ：支持通过网页（http://multimedia.lycos.com）进行基于关键字的图像搜索。它利用图像服务器和外部数据源（如网页）进行图像搜索，但不支持高级搜索，仅使用术语的连词。因此，用户无法指定图像的元数据（如大小或分辨率），搜索结果有限。为解决这些问题，查询制定代理（Query Formulation Agent）会生成一系列连词和析取查询，而评估和排序过程则由排序代理负责。
- TerraServer ：是微软的一个技术演示项目，有对应的网络服务 API。它是一个在线数据库，包含数字航空照片（DOQs - 数字正射影像四边形）和地形图（DRGs - 数字光栅图形），这些数据产品由美国地质调查局（USGS）提供。图像以小图块的形式提供，可以通过拼接图块形成更大的图像，如 terraserver - usa.com 的演示使用了 2x3 图块的拼接。其目的是将本体增强的查询转化为针对 TerraServer 元数据的特定子查询，将得到的图像标识符及其元数据封装到图像本体的实例中，并将这些实例数组返回给网络服务代理，以便与其他结果进行汇总。

2. 知识筛选器的端到端场景

以用户搜索“Rushmore”为例，展示了各个代理、名称服务和数据源在处理用户查询时的交互过程：
1. 用户向用户代理（User Agent）提供关键字查询“Rushmore”。
2. 用户通过查询表单中的单选按钮将该术语标识为人物、地点或事物，这里选择了“地点”。
3. 用户代理将查询传递给查询制定代理。
4. 查询制定代理调用本体代理（Ontology Agent），为“地点”实例化一个 OWL 模式，名称为“Rushmore”。
5. 本体代理根据初始查询选择一个服务代理，在这种情况下，它向 WordNet 请求“Rushmore”的概念列表。WordNet 将结果返回给本体代理，本体代理再通过查询制定代理将结果传递给用户代理，供用户决策。
6. 用户选择“Mount Rushmore”概念，它有三个同义词（“Rushmore”、“Mt. Rushmore”和“Mount Rushmore”）。
7. 本体代理将同义词集提交给 USGS 地理名称信息服务器，并收到候选地理坐标列表。
8. 候选坐标列表被发送到查询制定代理，用户选择所需的位置。
9. 本体代理使用所选的纬度和经度更新 OWL 模式实例。
10. 查询制定代理将完全指定的查询传递给网络服务代理。
11. 网络服务代理将适当的子查询转发给 Lycos 和 TerraServer。对这两个数据源进行查询，并将结果返回给网络服务代理。结果被编译成描述图像元数据的新 OWL 实例。
12. 所有结果被合并并发送到查询制定代理。
13. 查询制定代理将结果集和原始查询发送到排序代理进行排序。
14. 在排序代理中，使用偏好代理提供的权重和偏好对每个返回项的图像元数据进行排序，偏好代理维护用户偏好。
15. 排序代理为每个图像结果生成一个分数，并将带分数的列表返回给用户代理。
16. 用户代理按排名对结果进行排序，并将其呈现给用户。
17. 用户可以从列表中选择一个项目来下载和查看图像。

下面是这个过程的 mermaid 流程图：

graph LR
    A[用户] -->|提供查询“Rushmore”| B[用户代理]
    B -->|传递查询| C[查询制定代理]
    C -->|调用| D[本体代理]
    D -->|请求概念列表| E[WordNet]
    E -->|返回结果| D
    D -->|传递结果| C
    C -->|传递结果| B
    B -->|用户选择| F[“Mount Rushmore”]
    D -->|提交同义词集| G[USGS 地理名称信息服务器]
    G -->|返回坐标列表| C
    C -->|用户选择位置| D
    D -->|更新 OWL 模式| C
    C -->|传递查询| H[网络服务代理]
    H -->|转发子查询| I[Lycos]
    H -->|转发子查询| J[TerraServer]
    I -->|返回结果| H
    J -->|返回结果| H
    H -->|合并结果| C
    C -->|传递结果和查询| K[排序代理]
    K -->|排序并返回带分数列表| B
    B -->|呈现结果| A
    A -->|选择项目| L[下载和查看图像]

3. 知识筛选器的元模型

为了更好地捕捉和管理知识筛选器的搜索过程中的相关信息，定义了一个元模型（Knowledge Sifter Meta - Model，KSMM）。
- UML 静态模型 ：KSMM 的 UML 静态模型中，顶层是类代理（Class Agent），它专门化为知识筛选器框架中的各个代理，包括用户代理、偏好代理、本体代理、查询制定代理、排序代理和网络服务代理。这些代理管理各自的对象类、处理规范和网络服务。例如，用户代理管理用户类、用户界面场景、用户模式挖掘算法和网络服务；用户指定用户偏好，可细分为搜索偏好和源偏好；用户提出的用户查询包含多个查询概念，这些概念又与本体概念相关。
- Protégé 本体 ：KSMM 也通过 Protégé 本体进行了指定，其元类与 UML 图中的类相对应。Protégé KSMM 可以导出为 Web 本体语言（OWL）规范，通过命名空间超链接进行查询，使得作为网络服务实现的代理具有可移植性，能够驻留在不同的计算机上。

下面是一个简单的表格展示部分代理及其管理内容：
| 代理名称 | 管理内容 |
| ---- | ---- |
| 用户代理 | 用户类、用户界面场景、用户模式挖掘算法、网络服务 |
| 偏好代理 | 用户偏好（搜索偏好、源偏好） |
| 本体代理 | 用户查询、本体概念、本体源 |
| 查询制定代理 | 细化查询、数据源交互 |
| 排序代理 | 查询结果排序 |
| 网络服务代理 | 数据源、源属性（出处、覆盖范围、访问协议、历史） |

4. 数据/知识谱系与适应性

数据/知识谱系对于知识筛选器的适应性至关重要。知识筛选器元模型不仅规定了对象类、属性、关系和约束，还能指定处理用户请求的代理之间的工作流程。这一概念可扩展到为虚拟组织动态配置语义网络服务。
- 捕捉元数据 ：通过创建 KSMM，可以捕捉从用户初始查询规范到查询细化、处理和排序的整个搜索过程的元数据，还能捕捉代理属性和代理交互的度量，以确定知识筛选器的整体性能。
- 系统进化 ：用户反馈和知识筛选器的性能指标可用于多种方式来推动系统的进化。例如，用户反馈能让用户偏好代理调整偏好配置文件，以反映不断变化的偏好和偏差，并调整用户认为高质量和权威的数据源。此外，通过聚合用户配置文件和偏好，可以使用数据挖掘和协同过滤技术发现用户群体之间的模式，使知识筛选器更能利用新兴语义。
- 代理适应性 ：每个知识筛选器代理都能适应查询和网络服务行为模式的变化。例如，用户代理可以通知网络服务和排序代理某个用户的搜索和排序偏好发生了变化；网络服务代理可以监控网络流量和数据源的响应时间，在某些数据源无法及时提供结果时，以即时方式向用户提供部分结果，直到完整结果可用。
- 数据 - DNA 应用 ：以情报分析师为例，他们可以从相关证据中创建数据 - DNA 片段，对其进行注释，关联到支持的子任务并存储起来。这些片段的谱系和出处提供了证据收集的时间戳、来源以及分析师对证据的信任评估。数据 - DNA 片段还可以与他人共享，用于协作情报评估。此外，还可以对分析师的首选工作风格和过程模型进行建模，存储在用户配置文件中，以指导知识筛选器的搜索过程。

5. 数据 - DNA 与新兴行为

数据 - DNA 为知识筛选器中的对象提供了自描述元数据，其目的是捕捉、存储和注释在知识筛选器操作过程中创建或使用的每个工件的谱系元数据，以便能够重现和分析用户查询的端到端处理过程。
- 工件存储与索引 ：KSMM 提供了领域模型，通过它可以对用户查询、语义增强查询、网络服务获得的结果以及结果排名等单个工件进行存储、索引和注释。这些工件或数据 - DNA 片段可以组合成代表场景的更大片段，这些场景可以离线开发并存储在 KS 存储库中，也可以通过挖掘知识筛选器正常运行期间为多个用户及其查询存储的工件集合来获得。
- 实际应用场景 ：以用户在南达科他州家庭出游时使用知识筛选器搜索“Mount Rushmore”为例，知识筛选器首先检索与用户上下文（家庭出游）相对应的数据 - DNA 片段，然后根据片段中的工作流提出以下操作建议：
1. 将驾驶指示自动加载到汽车的 GPS 中。
2. 在 15 英里半径内的希尔顿酒店连锁店预订酒店。
3. 预订四人晚餐（从用户偏好的餐厅列表中选择）。
4. 购买今晚的拉什莫尔山声光秀门票。
- 代理协作处理 ：本体代理负责管理相关数据 - DNA 片段及其关联场景，它与查询制定代理合作，将数据 - DNA 片段用用户特定数据实例化，然后呈现给网络服务代理进行处理。网络服务代理将实例化的片段分发到适当的网络服务，并协调处理请求的工作流。由于这些服务的分散和分布式性质，代理可能会通过协商过程搜索外部数据 - DNA 片段，例如涉及遵循 ebXML 协议的业务流程时，代理会协商片段，用用户数据实例化它并添加到该用户的实例化数据 - DNA 中。
- 并行执行机会 ：在家庭出游示例中，存在事务片段并行执行的机会。例如，可以从手机 GPS 确定家庭的 GPS 坐标并加载到汽车的 GPS 中，同时在获得并保证酒店预订后，可以进行餐厅和声光秀的预订。

下面是知识筛选器新兴框架的 mermaid 流程图：

graph LR
    A[KS 代理架构] -->|创建工件| B[KS 存储库]
    C[新兴代理] -->|访问| B
    B -->|存储数据 - DNA| B
    B -->|用于进化| A
    B -->|提供推荐| D[用户]

6. 协同过滤与新兴概念

推荐系统通过基于内容的过滤和协同过滤为用户提供合适的信息。大多数搜索引擎（如 Yahoo 和 AltaVista）仅使用基于内容的过滤，在结合用户偏好和数据质量评估方面存在局限性，而 Google 的成功在于其 PageRank 算法结合了基于内容的过滤和协同过滤。
- 新兴概念挖掘 ：在知识筛选器中，可以通过挖掘特定用户查询所检索对象的显式和/或隐式用户反馈来发现新兴概念。对用户查询进行分析，以确定对象的新兴概念，这将通过发现新概念并为该概念提供用户反馈来提高知识筛选器搜索的召回率和精度。
- 相似度计算 ：假设从图 5 的 KS 存储库中获得用户查询和查询结果之间的相似度统计值。知识筛选器不仅根据用户查询，还根据用户偏好评估结果相似度，但为了在整个用户社区中获得新的新兴概念，在以下数据集中忽略用户偏好。
- 给出的统计值示例：
| 查询 | 结果 | 相似度 |
| ---- | ---- | ---- |
| q1 | r1 | 0.7 |
| q1 | r2 | 0.2 |
| q2 | r1 | 0.9 |
| q3 | r1 | 0.1 |
| q3 | r2 | 0.8 |
- 协同相似度计算公式：
[sim_{col}(q_i, r_k)=\frac{\sum_{j\neq i, j\in{q_j|sim(q_i, q_j)>\theta_q}}sim(q_j, q_i)\times sim(q_j, r_k)}{n(j)}]
其中，(j) 属于与 (r_k) 相关的 (q_j) 集合，(sim_{col}) 和 (sim) 分别表示协同相似度和总体相似度，(\theta_q) 是查询相似度的阈值，用于确定在计算协同相似度时使用哪些相似查询以减少噪声。
- 总体相似度计算公式：
[sim(q_i, r_k)=(1 - \alpha)\times sim_{con}(q_i, r_k)+\alpha\times sim_{col}(q_i, r_k)]
其中，(\alpha) 是协同相似度在确定总体相似度时的权重，(sim_{con}) 是基于内容的相似度，(\theta_s) 是用于确定实例是正例还是反例的阈值。