35、科研数据处理与共享：从引用分析到数据协议构建-优快云博客

本文链接：https://blog.youkuaiyun.com/r7s8t/article/details/149388483

科研数据处理与共享：从引用分析到数据协议构建

1. 科研论文引用数据处理

在科研论文处理中，PDF 文档的处理和引用数据的提取是重要环节。通过 PDF - STREAM 软件可以将 PDF 文档转换为 JSON 文件，其转换结果存储在特定的文件夹中，方便后续分析。

1.1 PDF 转换与数据提取

PDF - STREAM 软件将 PDF 文档的文本转换到 “str” 属性中。为了分析文档元素，如页眉、页脚、章节标题等，可以使用 “page”、“transform”、“fontName” 等属性。
2017 年 6 月，CitEcCyr 项目提供了约 10K 个由 PDF - STREAM 软件生成的 JSON 文件供公众使用。这些 PDF 文档来源于 NEICON16 存档，其中包含约 150 个研究论文集，总计约 65K 篇论文。转换结果可在 https://socionet.ru/~cyrcitec/json/spz/neicon/ 查看，该链接包含初始 PDF 文档及其 JSON 版本，存储在 NEICON 集合的文件夹中，文件夹中的 PDF/JSON 文件名使用了同一论文在 Socionet 上的句柄（ID）。

1.2 JSON 解析与引用数据提取

使用 CitEcCyr 项目开发的方法和软件对 JSON 文件进行解析，提取所需的引用数据并存储为 XML 文件。以下是提取引用数据的示例：
- 示例 4：单个引用的提取数据
- <from_pdf> 子标签：提取的引用原始数据。
- num 属性：引用在列表中的序号。
- start 和 end 属性：引用的文本坐标，即从初始 PDF 文档文本开头算起的引用的第一个和最后一个符号的编号。
- url 属性：如果 <from_pdf> 标签的数据中有合适的 URL，则包含该 URL。
- author 、 title 和 year 属性：从 <from_pdf> 标签的行引用数据中提取，用于不同目的，如按作者姓名搜索文中引用、将引用与同一论文的元数据关联（为该引用创建引用关系）等。
- 示例 5：文中引用及其上下文的提取数据
- <Reference> 标签：文中引用的编号。
- <Exact> 标签：文中引用在论文中出现的符号。
- <Start> 和 <End> 标签：文中引用的文本坐标。
- <Prefix> 标签：文中引用左侧的上下文； <Suffix> 标签：文中引用右侧的上下文。默认情况下，解析上下文的算法会取 <Exact> 标签中字符串前后各 200 个符号。
- 示例 6：章节标题的解析数据
- 章节的序号。
- 章节的标题。
- 标题的文本坐标。
- 整个章节的文本坐标。

通过这些提取的引用数据，可以构建引用关系的语义属性，如下表所示：
| 引用论文 | 引用关系的语义 | 被引用论文 |
| — | — | — |
| 标题：“SocioRePEc CRIS with an interactive mode of the research outputs usage”，ID：repec:rus:mqijxk:43
文中引用：ID：[num: 1, start - end: 2126 - 2128]
位置：[章节编号：1，标题：“1. Introduction”，start - end: 2075 - 11242] | 风格：解释性
左上下文：“In the CRIS - 2010 conference paper”
右上下文：“some challenges for a CRIS - CERIF development were discussed in relation with the SocioNet project” | 标题：“A CRIS driven by research community: benefits and perspectives”，ID：repec:rus:mqijxk:23 |

引用关系的语义属性构建流程如下：

graph LR
    A[提取引用数据] --> B[分析引用位置]
    B --> C[确定引用风格]
    A --> D[提取上下文信息]
    D --> C
    C --> E[构建语义属性]

2. 引用数据可视化

一些流行的 PDF 文档注释工具使用 PDF.js 模块，例如 Hypothes.is 开源注释软件。RIS Socionet 将 Hypothes.is 注释工具集成到其环境中，使用户能够对所有可用的 PDF 研究论文进行注释。

由于使用 PDF.js 模块来转换和显示 PDF 文档，因此可以将从转换后的 PDF 中提取的引用数据可视化为这些 PDF 的注释。以下是创建注释的示例：
- 示例 7：文中引用的注释数据示例
- source 属性：提供被注释 PDF 文档的 URL。
- selector 属性：包含一个数据数组，指定应在 PDF 文档内容中注释的内容。
- exact 属性：指定注释的文本，如 [1]，其第一个符号编号为 “start”: 2128，最后一个符号编号为 “end”: 2126。
- tags 和 text 属性：指定如何注释 exact 中的文本，即用户点击此注释时将看到的内容。

通过这些注释，可以在 PDF 文档中可视化引用数据，方便用户查看和分析。例如，在 PDF 文档中可以看到高亮显示的文中引用，点击注释会弹出信息框，显示引用的相关信息。

3. 数据访问与共享概述

在当今大数据时代，数据已成为重要的研究资源，数据共享的需求日益增长。然而，数据访问和共享受到多种因素的影响，包括开放数据和封闭数据的不同特点。

3.1 开放数据

开放数据是指任何人都可以访问、使用或共享的数据。更准确地说，开放数据可以被任何人自由使用、重用和重新分发，最多只需遵守归属和相同方式共享的要求。开放数据具有可用性、可访问性、可重用性和可重新分发性等重要特性，并且不受限制，包括商业化用途。常见的开放数据许可证有 Creative Common Zero 等。

3.2 封闭数据

封闭数据通常包含私人或敏感信息，涵盖个人、机构或行业数据，如财务资源信息、个人健康和福祉信息、婚姻状况等。由于法律限制、组织政策或竞争优势等原因，数据访问往往受到限制。近年来，一系列数据泄露事件暴露了封闭数据的风险，如 Ashley Madison 黑客攻击事件，导致数千人的私人生活被曝光。此外，私人数据在未经数据主体同意的情况下在组织之间共享也引发了对潜在剥削的担忧。

数据访问和共享的简化连续体如下：

graph LR
    A[开放数据] --> B[数据访问与共享]
    C[封闭数据] --> B
    B --> D[受限访问]
    B --> E[自由访问]

4. 数据共享协议研究背景

在数据共享过程中，特别是涉及封闭或敏感数据时，法律和政策导向的限制常常阻碍甚至抑制了良好的共享努力。为了解决这个问题，有必要开发一种能够自动生成数据共享协议的系统。

在 “Enabling Seamless Data Sharing in Industry and Academia” 研讨会上，封闭数据共享挑战是主要关注点之一。研讨会达成了一致共识，即需要一个能够自动生成数据共享协议的系统。这也是 “A Licensing Model and Ecosystem for Data Sharing” 倡议的关键目标之一，该倡议是 NSF Spoke 研究项目的一部分，由麻省理工学院、德雷塞尔大学的元数据研究中心和布朗大学的计算机科学系合作开展。

研究的目标是识别能够自动且迅速支持在封闭和受限环境中开发数据共享协议的元数据类别和属性。具体来说，通过对 26 个数据共享协议样本进行内容分析，识别元数据类别和属性。

数据共享协议开发的关键步骤如下：
1. 确定研究目标：识别支持数据共享协议自动开发的元数据类别和属性。
2. 收集样本：选取 26 个数据共享协议作为研究样本。
3. 内容分析：对样本进行内容分析，提取相关信息。
4. 识别属性：根据分析结果，识别元数据类别和属性。
5. 应用与验证：将识别的属性应用于数据共享协议的自动开发，并进行验证和优化。

通过以上步骤，可以逐步建立一个有效的数据共享协议开发系统，促进封闭和敏感数据的安全共享。

科研数据处理与共享：从引用分析到数据协议构建（下半部分）

5. 数据共享协议内容分析结果

通过对 26 个数据共享协议样本的内容分析，得到了一系列元数据类别和属性，这些结果有助于自动开发数据共享协议。

5.1 元数据类别与属性概述

这些属性可以帮助明确数据共享协议中的各项条款，确保数据共享的合法性、安全性和有效性。

5.2 具体属性的作用

以“数据描述”类别为例，“数据类型”属性可以明确数据是属于文本、图像、音频还是其他类型，这有助于数据使用者了解数据的性质和用途。“数据来源”属性可以说明数据是来自实验、调查还是其他渠道，增加数据的可信度和可追溯性。

在“访问权限”类别中，“查看权限”可以规定数据使用者是否可以查看数据，“使用权限”可以限制数据的使用范围，如是否可以用于商业目的、是否可以进行二次开发等，“分发权限”则可以控制数据是否可以被进一步分发。

“安全措施”类别中的属性对于保护数据的安全性至关重要。“数据加密”可以防止数据在传输和存储过程中被窃取，“访问控制”可以确保只有授权人员能够访问数据，“备份策略”可以保证数据在出现意外情况时能够得到恢复。

数据共享协议属性分析流程如下：

graph LR
    A[收集协议样本] --> B[内容分析]
    B --> C[提取属性]
    C --> D[分类整理]
    D --> E[确定高级类别]
    D --> F[确定中级属性]
    D --> G[确定低级属性]
    E --> H[构建协议框架]
    F --> H
    G --> H

6. 数据共享协议开发的意义与前景

开发能够自动生成数据共享协议的系统对于研究信息系统和科研论文作者具有重要意义。

6.1 对研究信息系统的意义

传统的引文分析主要关注引用的数量和频率，而基于内容的引文分析则可以深入到引用的内容本身，提供更多的信息。通过使用数据共享协议中的元数据属性，可以实现对引用内容的分析，从而将研究信息系统从传统的引文分析转向引文内容分析。

这种转变可以为研究信息系统的用户带来多重好处，例如：
- 引文语义属性总结 ：通过分析引用的上下文和语义属性，可以总结出引用的核心内容和意义，帮助用户快速了解引用的重点。
- 基于引文上下文的信息检索 ：用户可以根据引用的上下文信息进行检索，提高信息检索的准确性和效率。
- 引文推荐和预测服务 ：根据引用的语义属性和上下文信息，可以为用户推荐相关的文献，预测未来可能的引用趋势。
- 增强知识图谱和概念网络 ：将引用的内容信息纳入知识图谱和概念网络中，可以丰富知识表示，提高知识的关联性和可解释性。