减少大型语义图以提高语义相关性
1. 引言
在语义相关领域,旨在开发一种能以任意给定语义图为源创建语义度量的方法。SemArachne 方法不依赖对语义图的特定知识,基于邻近性而非距离的概念,考虑连接两个术语的所有路径,路径权重取决于边的类型,并且能自动调整这些权重。
之前使用 WordNet 2.1 和 WordSimilarity 353 数据集验证时,取得了比文献中更好的结果。但随着语义图规模增大,如 WordNet 较新版本或其他语义源(DBpedia、Freebase),节点和边类型增多,图变得更大更密集。SemArachne 考虑所有路径,处理路径数量增加,而图的平均节点度高会降低其效率。
为解决此问题,本文探索减少边类型数量同时保留所有节点的方法,即逐步构建原始语义图的子图。从全断开的图开始,每次迭代添加一种新的边类型,直到语义度量质量无法进一步提高,同时对 SemArachne 使用的语义度量进行了一些小调整。
2. 相关工作
语义度量用于衡量术语间语义关系的强度,语义源主要分为两类:
- 非结构化和半结构化文本 :如纯文本或字典,基于词分布假设,主要用于分布方法,包括空间/几何方法、基于集合的方法和概率方法。
- 计算机可理解资源 :知识明确结构化和建模,基于此的语义度量依赖利用语义图或更高形式知识表示的技术,主要用于基于知识的方法,包括结构方法、基于特征的方法和香农信息论方法。
基于知识的方法能控制比较元素时考虑的边类型,实现简单、复杂度低,但需要包含所有待比较元素的知识表示,使用大型知识源时计算复杂度
减少大型语义图提升语义相关性
超级会员免费看
订阅专栏 解锁全文
4391

被折叠的 条评论
为什么被折叠?



