24、从大众分类法中挖掘语义：量化研究与智能搜索服务-优快云博客

本文链接：https://blog.youkuaiyun.com/keras9composer/article/details/150625989

从大众分类法中挖掘语义：量化研究与智能搜索服务

大众分类法中的层次概念关系

在探索标签中隐藏的概念层次结构时，我们采用了HACM模型。这是一种层次聚类模型。在大众分类法场景下，用户的标签行为可以通过HACM模型来解释，具体步骤如下：
1. 遇到URL ：用户以概率$p_i$遇到某个URL $x_i$。
2. 关联概念 ：该URL让用户联想到层次结构底层的一个概念$c_α$，使用隐藏二进制变量$I_{iα}$来表示为该URL选择的概念。
3. 选择泛化级别 ：用户为该概念选择一个泛化级别$v$，此泛化级别确定了从底层概念$c_α$到顶层根节点路径上的一个内部节点，引入隐藏二进制变量$V_{rv}$对第$r$次共现观察的分辨率级别$A_v$进行编码。
4. 选择标签 ：给定内部节点$A_v$，以概率$q_{j|α}$选择一个标签$y_j$。

与之前的生成模型相比，主要区别在于用户在从指定概念生成标签之前必须选择一个泛化级别。

我们使用HACM模型对收集的Delicious数据进行实验，自动生成层次结构。在实验中，我们假设了一个完整的二叉树结构，尽管我们清楚概念层次结构不一定是树状，甚至可能是格状。实验目的并非证明推导概念层次结构方法的正确性或鲁棒性，而是定量研究出现的概念之间是否存在宽窄关系。我们随机采样原始数据，得到一个包含1642个URL和1121个标签、共现37124次的小测试数据集。实验结果如图13所示，该分类法的深度设置为5。标签右侧的数字是该标签在该泛化级别生成的概率。

为了评估生成的结构并展示HACM模型识别层次结构中抽象级别的能力，我们分别可视化了标签“programming”和“xml”的概率分布。“programming”标签大多作为一个非常通用的术语使用，根节点包含了其大部分概率质量，同时它也在与“microsoft”和“regex”相关的较窄意义上使用。相反，“xml”标签大多在“xml编程”这种非常具体的意义上使用，因此在层次结构底部出现的概率较大，但它也在与“atom”和“feed”讨论的数据格式这种更一般的意义上使用。这些例子表明，出现的概念之间确实存在层次关系，并且使用更精细的概率模型有可能发现这些关系。

生成的分类法具有动态性，它由自由形式的自下而上的注释生成，直接反映了用户的词汇表，能够被社区用户有效理解和利用，避免了自上而下的语义注释方法的缺点，同时降低了用户进行注释的门槛。

相关工作

语义注释是语义网领域的一个关键问题。早期的工作主要使用本体工程工具先构建本体，然后在工具中手动注释网页资源。为了实现手动过程的自动化，人们提出并评估了许多技术：
- 基于少量训练示例 ：如[22]从少量训练示例中学习，然后自动在网页上标记概念实例，该工作在大规模基础上进行了测试，取得了令人印象深刻的精度。
- 自动生成自然语言句子 ：[20]通过根据本体自动生成自然语言句子，让用户与这些句子交互以逐步形式化它们，帮助用户注释文档。
- 利用网络进行消歧 ：[21]利用网络本身作为消歧源，大多数注释可以通过网络搜索引擎返回的命中数进行消歧，[24]使用更复杂的统计分析改进了该方法。
- 从数据库生成注释 ：鉴于许多网页现在由后端数据库生成，[19]提出从数据库自动为网页生成语义注释。
- 信息提取技术 ：[23]采用信息提取技术从网页中自动提取给定本体的概念实例。

然而，这些语义注释工作都遵循传统的自上而下的方法，即假设在注释过程之前先构建本体。

我们从大众分类法自动生成分类法的工作可以看作是一种本体学习方法。大多数本体学习方法从结构化数据、半结构化数据和非结构化数据中学习本体，很少有工作利用社交书签进行本体学习。我们的工作是从共享的社交书签中学习分类法。

此外，还有许多工作致力于帮助用户管理语义网上的书签，但这些工具缺乏从社交书签中导出涌现语义的能力。近期关于涌现语义的工作也有不少，如[39]提出了一个大规模分布式系统的涌现语义框架，[40]描述了如何从大量异构数据源的用户中逐步获得统一的数据模式，[38]提出网页的语义不仅由作者决定，还由用户的使用方式决定，不过其实现涌现语义的方法与我们不同，我们使用概率生成模型分析用户标签，而[38]使用用户网页导航路径的公共子路径。

下面是一个简单的mermaid流程图，展示HACM模型下用户标签行为的流程：

graph LR
    A[遇到URL xi] --> B[关联概念 cα]
    B --> C[选择泛化级别 v]
    C --> D[选择标签 yj]

同时，为了更直观地展示部分实验数据，我们列出一个表格：
| 标签 | 概率 |
| ---- | ---- |
| programming | 0.5616 |
| technology | 0.0491 |
| software | 0.0246 |
| tutorial | 0.0242 |
| Java | 0.0226 |

从大众分类法中挖掘语义：量化研究与智能搜索服务

知识筛选器中的涌现语义

在内容检索系统中，如知识筛选器（Knowledge Sifter），涌现语义起着至关重要的作用。知识筛选器是一种基于专门代理的架构和系统，用于协调在异构源（包括网络、半结构化数据、关系数据和语义网）中搜索知识，其目标是根据用户的决策需求提供即时知识。

在知识筛选器的背景下，有三个重要因素可以帮助聚焦搜索：
1. 用户配置文件 ：包含用户的偏好、偏见和查询历史。
2. 用户上下文 ：专注于当前活动。
3. 用户信息空间 ：用户可能在带宽有限的专用硬件上接收信息，这意味着知识必须根据呈现介质进行过滤和定制。

涌现语义允许知识筛选器进行进化自适应行为。我们提出了一个元模型，用于捕获代理操作和交互，以及系统运行期间创建和使用的工件。这些都存储在一个存储库中，并且有一组涌现代理执行各种涌现功能，具体如下：
- 数据挖掘 ：挖掘模式。
- 概念发现和进化 ：发现和进化概念。
- 用户偏好跟踪 ：跟踪用户偏好。
- 用户配置文件的协同过滤 ：对用户配置文件进行协同过滤。
- 结果排名 ：对搜索结果进行排名。
- 数据源声誉和信任 ：评估数据源的声誉和信任度。

互联网与语义网的发展影响

互联网和万维网的出现使得通过网络表示关于人、地方和事件的语义成为可能。不断发展的语义网将网络视为一个分布式的数据、信息和知识空间。IPv6的出现让几乎每个对象都能拥有固定的IP地址，从而在互联网上可用。RFID等新技术允许对象在复杂的供应链中被跟踪。手持设备集成了多种功能，让用户可以使用这些设备进行商业交易。我们身处一个无处不在的信息空间，管理信息过剩的关键在于拥有有效的工具来及时查找、过滤、聚合和呈现信息。

当前有一些相互关联的趋势影响着即时知识管理（JIT - KM）的研究：
- 按需计算 ：用户可以将计算基础设施视为信息公用事业，根据使用情况收费，无需了解计算机和存储设施的位置。
- 按需组织 ：可以根据供应商提供的现有Web服务动态配置虚拟组织。
- 按需业务 ：将企业与其供应商集成，优化业务流程和供应链以减少库存。
- 按需零售 ：供应商管理商店货架空间，根据客户实际购买情况收费。

以沃尔玛为例，它使用460TB的数据仓库近乎实时地监控全球运营，创建了Retail Link外联网让供应商查看产品销售情况，并计划进行基于扫描的交易，要求主要供应商使用RFID标签跟踪库存。这表明沃尔玛为供应商提供虚拟货架空间，供应商负责及时补货和管理库存。

总结与展望

传统的自上而下的语义注释方法门槛高且难以扩展。而自下而上的方法，如我们从大众分类法中挖掘语义的方法，不依赖于预定义的语义模型，而是从实际使用数据中推导语义，具有低门槛和紧密贴合用户词汇表的优势。

未来的工作需要在理论上进行更多探索。例如，如何将自上而下和自下而上的方法结合起来，发挥两者的优势来解决语义注释的难题；自下而上方法中语义表示与自上而下方法中形式表示之间的关系是什么，以及如何将它们联系起来；将本文的自下而上方法与其他概率方法（如LSI）进行比较并进行正式严格的评估；自动从大众分类法中获取概念层次结构也是一个开放且具有挑战性的问题，值得投入大量精力去研究。

下面是一个mermaid流程图，展示知识筛选器中涌现代理的功能流程：

graph LR
    A[数据存储库] --> B[数据挖掘代理]
    A --> C[概念发现和进化代理]
    A --> D[用户偏好跟踪代理]
    A --> E[用户配置文件协同过滤代理]
    A --> F[结果排名代理]
    A --> G[数据源声誉和信任代理]
    B --> H[输出模式]
    C --> I[输出概念]
    D --> J[输出用户偏好]
    E --> K[输出协同过滤结果]
    F --> L[输出排名结果]
    G --> M[输出数据源评估]

为了更清晰地展示影响JIT - KM的趋势，我们列出以下表格：
| 趋势 | 描述 |
| ---- | ---- |
| 按需计算 | 用户将计算基础设施视为信息公用事业，按需使用和付费 |
| 按需组织 | 基于现有Web服务动态配置虚拟组织 |
| 按需业务 | 集成企业与供应商，优化业务流程和供应链 |
| 按需零售 | 供应商管理货架空间，按客户购买情况收费 |