下一代数字图书馆系统技术解析
1. 引文图管理
1.1 引文图的概念与作用
引文图是一种有向图,其中节点对应文档,边对应文档之间的引用关系。它对于进行文献计量分析(如计算文档权威性和作者重要性)以及社交网络分析非常有用。要构建文档引文图,需要识别和解析每个文档中包含的所有引用,然后将这些引用与相应的文档记录进行匹配。
1.2 CiteSeer 与 CiteSeer Plus 的不同方法
CiteSeer 的“硬方法”
- 解析引用 :使用启发式方法解析每个引用,提取标题、作者、出版年份、页码和引用标识符等字段。
- 聚类引用 :基于字符串距离阈值比较每个引用的字段,将引用聚类成代表单个文档的组。
- 匹配文档 :将每个引用组的元数据与现有文档记录进行比较,以将引用与文档匹配。
然而,这种方法存在一些问题。由于给定论文的引用格式可能差异很大,开发引用字段识别规则非常耗时且容易出错,并且该方法严重依赖离线计算。如果没有找到与引用组匹配的文档,该组中的所有引用都无法解决,直到下一次图更新,即使匹配的文档提前进入系统。
CiteSeer Plus 的“软方法”
- 基于查询构建图 :使用查询模块中的查询来解决引用。索引器允许将元数据存储在不同的子索引(切片)中,因此可以在主索引的特定切片上执行查询。
- 匹配引用与
超级会员免费看
订阅专栏 解锁全文
6411

被折叠的 条评论
为什么被折叠?



