词汇术语演变分析
1. 研究方法与数据集
为了研究不断发展的知识图谱(KGs)中词汇术语的使用情况,研究人员从爬取的三元组主语中提取了所有使用13种词汇表中任意术语的顶级域名(PLD),具体借助了Guava库来从给定URL中获取PLD。除记录词汇术语首次出现的日期外,还记录了包含该术语的三元组数量,用于计算数据集快照中术语的采用时间。
研究选用了三个大规模KGs进行分析,分别是来自关联开放数据(LOD)云的DyLDO和BTC,以及Wikidata。
- DyLDO :用于存储部分网络数据文档的每周快照,研究中解析了2012年5月至2017年3月的242个快照。
- BTC :在2009 - 2012年以及2014年从LOD云进行年度爬取,使用所有可用版本分析提取词汇的采用情况。
- Wikidata :一个用于协作存储和编辑结构化数据的知识库。通过Wikidata的RDF导出页面,解析使用Wikidata工具包生成的RDF转储文件中的术语和属性。假设第一个快照为Wikidata词汇表的第一个版本,依此解析后续文件以提取对第一个版本的更改,利用2014年4月至2016年8月的25个RDF转储文件,提取新增或弃用的术语,并进一步解析以分析术语的采用行为。
2. LOD云的研究结果
2.1 LOD词汇表的变化
- 术语增减情况 :总体观察到35%的新创建术语和11%的弃用术语,85%的词汇表术语数量增加。ADMS和CiTO是例外,前者术语数量减少,后
超级会员免费看
订阅专栏 解锁全文
1227

被折叠的 条评论
为什么被折叠?



