从维基百科摘要中进行语言无关的关系提取
1. 引言
在文本中进行关系提取是一项重要的任务,尤其是从维基百科这样的丰富资源中。传统的关系提取方法大多依赖特定语言的技术,而本文提出的方法旨在实现语言无关的关系提取,通过利用维基百科摘要中的典型模式,结合机器学习算法,有效地从多语言的维基百科摘要中提取有价值的关系信息。
2. 相关工作
- 现有方法分类 :关系提取方法可分为内部和外部方法。本文采用的是外部方法,即利用维基百科作为外部资源。
- 语言特定方法 :许多现有方法大量使用特定语言的技术,如词性标注和词形还原。例如,Distant supervision方法用于从维基百科文本中为Freebase提取关系,使用了词汇和句法特征;类似的方法也用于DBpedia。
- 依赖树相关方法 :Nguyen等人提出利用依赖树的相似性从维基百科文章中挖掘关系实例,但依赖树的构建高度依赖语言,这些方法大多仅在英文维基百科上进行评估。
- 语言无关方法 :真正的语言无关方法较少。一些多语言方法使用谷歌翻译进行预处理,还有基于深度学习的方法理论上可处理多语言文本,但本文的方法专注于维基百科摘要,可直接利用知识图谱中的知识。
3. 方法
3.1 总体方法
- 关系定义 :DBpedia知识图谱的本体为395种实体间的关系定义了明确的域和范围。
超级会员免费看
订阅专栏 解锁全文
21

被折叠的 条评论
为什么被折叠?



