35、科研数据处理与共享:从引用分析到数据协议构建

科研数据处理与共享:从引用分析到数据协议构建

1. 科研论文引用数据处理

在科研论文处理中,PDF 文档的处理和引用数据的提取是重要环节。通过 PDF - STREAM 软件可以将 PDF 文档转换为 JSON 文件,其转换结果存储在特定的文件夹中,方便后续分析。

1.1 PDF 转换与数据提取
  • PDF - STREAM 软件将 PDF 文档的文本转换到 “str” 属性中。为了分析文档元素,如页眉、页脚、章节标题等,可以使用 “page”、“transform”、“fontName” 等属性。
  • 2017 年 6 月,CitEcCyr 项目提供了约 10K 个由 PDF - STREAM 软件生成的 JSON 文件供公众使用。这些 PDF 文档来源于 NEICON16 存档,其中包含约 150 个研究论文集,总计约 65K 篇论文。转换结果可在 https://socionet.ru/~cyrcitec/json/spz/neicon/ 查看,该链接包含初始 PDF 文档及其 JSON 版本,存储在 NEICON 集合的文件夹中,文件夹中的 PDF/JSON 文件名使用了同一论文在 Socionet 上的句柄(ID)。
1.2 JSON 解析与引用数据提取

使用 CitEcCyr 项目开发的方法和软件对 JSON 文件进行解析,提取所需的引用数据并存储为 XML 文件。以下是提取引用数据的示例:
-

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值