科研数据处理与共享:从引用分析到数据协议构建
1. 科研论文引用数据处理
在科研论文处理中,PDF 文档的处理和引用数据的提取是重要环节。通过 PDF - STREAM 软件可以将 PDF 文档转换为 JSON 文件,其转换结果存储在特定的文件夹中,方便后续分析。
1.1 PDF 转换与数据提取
- PDF - STREAM 软件将 PDF 文档的文本转换到 “str” 属性中。为了分析文档元素,如页眉、页脚、章节标题等,可以使用 “page”、“transform”、“fontName” 等属性。
- 2017 年 6 月,CitEcCyr 项目提供了约 10K 个由 PDF - STREAM 软件生成的 JSON 文件供公众使用。这些 PDF 文档来源于 NEICON16 存档,其中包含约 150 个研究论文集,总计约 65K 篇论文。转换结果可在 https://socionet.ru/~cyrcitec/json/spz/neicon/ 查看,该链接包含初始 PDF 文档及其 JSON 版本,存储在 NEICON 集合的文件夹中,文件夹中的 PDF/JSON 文件名使用了同一论文在 Socionet 上的句柄(ID)。
1.2 JSON 解析与引用数据提取
使用 CitEcCyr 项目开发的方法和软件对 JSON 文件进行解析,提取所需的引用数据并存储为 XML 文件。以下是提取引用数据的示例:
-