知识图谱的层次主题建模
1. 引言
在知识图谱的研究中,发现其潜在的层次结构是一个重要的问题。本文介绍了一种将自然语言处理中的层次主题模型(hLDA)应用于知识图谱领域的方法,旨在通过高效的Gibbs采样方案,在大规模知识图谱上诱导出连贯的主题层次结构,并实现高质量的主题聚类。
2. hLDA基础回顾
hLDA使用嵌套中国餐馆过程(nCRP)生成主题树,树的最大深度为L,每个节点对应一个主题βk。对于每个文档di,它会在树中采样一条经过L个节点的路径ci,以及一个类似于LDA中主题混合的主题分布θi。对于文档中的每个单词wi,j,从θi中采样一个主题zi,j,并从该主题生成一个单词。其生成过程如下:
- 对于树中的每个节点nk ∈ N:
- βk ∼ Dirichlet(η)
- 对于每个文档di ∈ D:
- ci ∼ nCRP(γ)
- θi ∼ GEM(ρ, π)
- 对于文档中的每个单词wi,j ∈ di:
- zi,j ∼ Multinomial(θi)
- wi,j ∼ βci[zi,j]
其中,GEM(ρ, π)是破棍过程,作为主题层次的先验。
3. 知识图谱主题模型
3.1 模型描述
该模型是hLDA在知识图谱领域的扩展,主要有以下差异:
- 领域转换 :从文档和单词的领域转换到主题、谓词和对象的领域。将谓词 - 对象对视为标签,用于描述主题,类似于单词描述文档。
- 主题设置 :为树中的每个节点分配
超级会员免费看
订阅专栏 解锁全文
818

被折叠的 条评论
为什么被折叠?



