数字人文领域中无FAIR和简易数据的挑战
1. 数字人文中的开放数据与API
在数字研究时代,“开放”一词已流行多年。大多数研究人员都在关注开放数据、开放科学、开源和开放获取。开放运动的兴起,很大程度上是因为此前诸多领域过于封闭,无论是公共机构的资产负债表,还是公共资助的气候变化科研项目数据。纳税人有权要求数据透明和共享。大数据的指数级增长推动了“网络民主”,反之亦然。同样,科研机构的数据仓库管理者也面临着开放数据的压力。
在数字人文(DH)领域,开放数据和开放获取的倡导在过去几年产生了重大影响。因此,应用程序编程接口(API)常被纳入开放数据政策和数据管理计划。如今,人们可以轻松远程访问各种数据,还开发出了许多实用的衍生服务和移动应用。美国数字公共图书馆(DPLA)执行董事科恩指出了API对数字人文的长期价值。此外,最近在电子科学领域提出了可发现、可访问、可互操作和可重用(FAIR)原则,旨在让机器和人类更轻松地发现、访问、互操作和合理重用大量信息。
本文将从数字人文的角度探讨API的实证应用。第一部分介绍研究的理论背景,阐述数据所有权文化问题以及开放数据的未来趋势。第二部分展示API实验的技术细节,并非探讨最新、最创新的API技术,而是从新手软件开发人员的视角,强调使用API的经验以及优缺点。考虑到FAIR原则的流行,作者提出了改善数字人文领域API环境的建议,并指出消除开放数据现有障碍、通过“数据革命”实现真正数据解放的重要性,同时提出了“简易数据”的概念。
2. 无数据的研究
2.1 数据所有权文化
本文的目标之一是探讨在数字人文研究中,如何在不拥有数据的情况下构建有用的服务。尽管有数字人文部门和中心,但目前许多数字人文领域仍采用传统的特定领域和机构化研究方式。这是因为“现代”研究人员往往隶属于特定领域的科研机构,他们在专业实地工作或桌面研究中创建或获取数据,如考古发掘、绘画3D扫描或社会政治调查等,这些数据成为了机构的财产。简而言之,研究人员通常作为机构员工,在机构范围内拥有数据,或者通过机构与数据供应商的合作和伙伴关系轻松获取数据。例如,奥地利数字人文中心(ACDH)就与许多特定领域的研究所合作。
这种情况可以用数字人文矩阵来描述,主要分为以下三类:
| 类别 | 描述 | 示例 |
| ---- | ---- | ---- |
| 数据提供者和研究机构 | 在博物馆、图书馆、档案馆或大学开展研究,既是数据所有者也是使用者,可能开发数据服务 | 博物馆研究人员对文物进行研究并管理相关数据 |
| 服务提供者 | 开发技术服务,不拥有数据,包括研究基础设施和软件供应商 | Europeana、DARIAH、CLARIN |
| 个体研究人员 | 使用现有数据和工具探索研究课题,无数据所有权和开发权 | 艺术史学家、语言学家等 |
历史上,机构和研究人员倾向于数据所有权文化,这不仅阻碍了开放数据和开放获取,还导致实证研究缺乏第三方验证。与更依赖实验和数学的自然科学相比,数字人文研究的可重复性极为有限。为改善这种情况,如FAIR原则等新举措应运而生,以促进数据发布和研究过程记录。
2.2 跨学科和分布式数据研究的前沿
对于第一类的机构孤立和数据碎片化问题,有几个问题值得思考:“数据所有权文化能否推动数字人文成为跨学科研究领域?”“在这种情况下创建的数据是否足以促进不同领域的数据使用?”这些问题也适用于第二类的CLARIN,它试图推动更多跨学科研究,使数据和服务能被更多非自然语言专家的群体使用。除非各机构努力开展跨学科数字人文研究并开放数据供外部使用,否则数据使用可能仍局限于特定领域的研究社区。
作者预见,新的数字人文将从第三类群体中兴起。在不久的将来,研究人员以网络科学或开放科学的名义,在不创建或拥有数据的情况下开展研究将变得普遍甚至成为常态。即使主要使用自己的数据,在链接开放数据日益流行的当下,混合内部和外部数据也是有益的选择。研究人员可以通过混合不同类型的数据,找到新的分析和解释方法。实际上,研究越跨学科,就越有可能从外部借用数据。本文开发的应用程序仅使用不同学科的外部API数据,旨在揭示“分布式数据研究”的优缺点。
3. 詹姆斯·库克动态期刊实验
本节以詹姆斯·库克(1728 - 1779)的资源为例,介绍一个简单API应用程序的背景和开发过程。选择他是因为他在科学和历史领域都备受关注,具有开展数字人文跨学科研究的巨大潜力。
詹姆斯·库克以其史诗般的太平洋之旅而闻名,这些旅程不仅是重要的航海历史时刻,也是科学任务。他身边有当时的顶尖科学家,如约瑟夫·班克斯和丹尼尔·索兰德,他们收集了动植物样本,推动了欧洲人对未知地区动植物的认识。班克斯和索兰德的自然奇观记录保存在全球各地的自然和文化遗产机构中,不易获取。可以预见,库克旅程的各个方面可能引发意想不到的研究。
3.1 联合API
詹姆斯·库克动态期刊(JCDJ)旨在为探索詹姆斯·库克的日记提供新方式,它集成了开放图书馆API、谷歌地图API、蒲公英API和DBpedia。开放图书馆有新的全文搜索API,但使用时需要一些变通方法,因为并非所有图书馆资源都可通过API访问,且确定访问资源的参数并不容易。
JCDJ的起始页面只有一个搜索框,用户可以对“库克船长1768 - 1771年乘坐‘奋进号’进行首次环球航行的日记”进行全文查询。搜索结果页面按每个搜索结果分为信息块,每个结果包含:
1. 搜索词以蓝色高亮显示的文本片段;
2. 显示文本片段和搜索词所在页面的书籍查看器;
3. 显示命名实体及其描述的表格;
4. 标注所有识别地点的综合地图。
如果蒲公英API检测到文本片段中的命名实体与维基百科相关,片段中还会包含指向这些实体的超链接。总体而言,JCDJ是一个阅读辅助工具,包含许多自动生成的链接。页面预览是基于页码创建的嵌入式iframe,方便用户在上下文中查看搜索结果。但由于API功能限制,无法在嵌入式预览中提供开放图书馆网页界面中的高亮功能。
以下是结果表格显示的内容:
| 内容 | 描述 |
| ---- | ---- |
| 识别实体类型 | 如地点、人物等 |
| 实体置信度(0 - 1) | 表示识别的可靠程度 |
| 描述 | 对实体的详细说明 |
| 缩略图 | 实体的相关图片(如有) |
| 地图位置 | 实体在地图上的位置(如有) |
实现这样的表格背后需要进行大量的数据处理。为了以有意义且用户友好的方式显示数据,经常需要对数据值进行归一化处理。例如,将JSON数组转换为类型列中的项目符号。地图创建涉及多个步骤:
graph TD;
A[读取识别的命名实体] --> B{实体类型是否为地点};
B -- 是 --> C[调用DBpedia获取地理坐标];
C --> D[数据归一化];
D --> E[使用谷歌地图API显示位置];
E --> F[合并所有地点坐标并绘制路线];
B -- 否 --> G[不处理];
虽然库克三次航行的路线已为学术界所知,但本实验试图部分自动化路线显示过程。不过,路线追踪仅限于文本片段,其中的地点可能不仅包括航行点,还包括其他上下文中提到的地点。尽管如此,该项目证明了命名实体识别有助于自动检测地名并将其绘制在地图上,特别是在对整个日记进行全文处理时更为有效。但由于实体识别失败和数据缺失或错误,也可能会出现误差。
尽管存在困难,但该项目在方法上很有意义,JCDJ的代码可以轻松应用于其他类似项目。例如,已应用于乔治·伯恩菲尔德的《东方之声》(1884年)、威廉·贝雷斯福德和乔治·迪克森的《环球航行》(1789年)以及约翰·坎贝尔的《赫梯人》(1890年)。这些不太知名的作品可能有许多地点和旅行路线尚未被研究,可能为人文研究带来新的见解。此外,本文的方法不仅适用于自然历史研究,也适用于任何采用全文处理的研究。值得注意的是,开放图书馆/互联网档案馆发布了大量免费资源,对数字人文具有重要潜力。
需要承认的是,JCDJ并非一个成熟的技术解决方案。由于实时数据访问,性能明显较慢,且项目依赖过多免费API,代码可能未经过优化。但该实验强调了在不拥有任何数据的情况下,将API与全文和相关信息集成的可能性,这在数字人文领域较为罕见。
数字人文领域中无FAIR和简易数据的挑战
3.2 跨学科自然历史的故事讲述
在开发过程中,作者在网络上搜索了广泛的数据。最初的原型是一个简单的平台,用户可以查询多个API,包括澳大利亚生物多样性地图集、欧洲数字图书馆、生物多样性遗产图书馆和生命百科全书等。除了前面提到的数据处理问题外,这一步成功地访问了多种跨学科资源的知识,这与科恩所说的API能被意外用户以意外方式使用的价值相呼应。
然而,这个原型过于关注查询和数据集。虽然每个数据片段都有其价值且相互关联,但用户需要检查和解释返回的数据才能理解其含义。这些数据尚未转化为信息和知识,也就是说,它没有讲述关于主题的故事。此外,由于网络上许多API是资源发现查询服务,结构化元数据与元数据所描述的(通常是非结构化的)源数据之间存在差距,这正是像欧洲数字图书馆这样的服务一直在努力解决的问题。这种现象似乎阻碍了用户将相关数据集进行上下文关联,并以人类可解释的方式整合新旧知识。
4. 对数字人文API环境的建议
基于上述实验和分析,为了改善数字人文领域的API环境,提出以下建议:
1.
数据标准化
:统一数据结构和格式,减少数据处理和归一化的工作量。例如,制定通用的数据模型和元数据标准,使不同来源的数据能够更方便地集成和比较。
2.
用户友好的GUI工具
:开发易于使用的图形用户界面(GUI)工具,降低新手开发者使用API的门槛。这些工具可以提供可视化的配置界面、数据预览和错误提示等功能。
3.
遵循FAIR原则
:确保API提供的数据符合FAIR原则,即可发现、可访问、可互操作和可重用。这包括提供清晰的元数据、标准化的接口和开放的数据许可证等。
4.
促进跨学科合作
:鼓励不同学科的研究人员和开发者合作,共同开发和使用API。通过跨学科的交流和合作,可以发现更多的数据应用场景和创新点。
5.
“简易数据”的推广
:推动“简易数据”的概念,使开放数据更易于被非编程人员使用。这可以通过提供简单的数据访问接口、示例代码和文档等方式实现。
5. 消除开放数据障碍,实现数据解放
目前,开放数据在数字人文领域面临着一些障碍,如数据所有权文化、数据碎片化和缺乏标准化等。为了实现真正的数据解放,需要采取以下措施:
1.
打破数据所有权壁垒
:鼓励机构和研究人员开放数据,促进数据的共享和再利用。可以通过政策引导、激励机制和数据共享平台等方式来实现。
2.
加强数据整合和管理
:建立统一的数据整合和管理平台,将分散的数据集中起来,提供更便捷的数据访问和查询服务。同时,加强数据的质量控制和维护,确保数据的准确性和可靠性。
3.
推动数据标准化和互操作性
:制定和推广数据标准和互操作性协议,使不同来源的数据能够无缝集成和交换。这有助于消除数据孤岛,提高数据的利用效率。
4.
培养数据素养
:提高研究人员和用户的数据素养,使他们能够更好地理解和使用开放数据。可以通过培训课程、在线教程和数据社区等方式来培养数据素养。
6. 总结
本文从数字人文的角度探讨了API的实证应用,通过詹姆斯·库克动态期刊的案例研究,揭示了分布式数据研究的优缺点。研究发现,在数字人文领域,数据所有权文化仍然存在,阻碍了跨学科研究和开放数据的利用。同时,API的使用虽然带来了数据访问的便利,但也面临着数据处理、标准化和用户体验等方面的挑战。
为了改善数字人文领域的API环境,提出了数据标准化、用户友好的GUI工具、遵循FAIR原则、促进跨学科合作和推广“简易数据”等建议。此外,为了实现真正的数据解放,需要打破数据所有权壁垒、加强数据整合和管理、推动数据标准化和互操作性以及培养数据素养。
未来,随着开放数据和API技术的不断发展,数字人文领域有望迎来更多的创新和发展机遇。通过消除开放数据的障碍,实现数据的自由流动和共享,将为跨学科研究和知识发现提供更广阔的空间。
以下是一个总结本文主要内容的表格:
| 方面 | 详情 |
| ---- | ---- |
| 研究背景 | 数字人文中开放数据和API的重要性,FAIR原则的提出 |
| 数据所有权文化 | 分为数据提供者和研究机构、服务提供者、个体研究人员三类,阻碍开放数据和跨学科研究 |
| 实验案例 | 詹姆斯·库克动态期刊,集成多个API,展示分布式数据研究的可能性和挑战 |
| 建议 | 数据标准化、用户友好工具、遵循FAIR原则、跨学科合作、推广“简易数据” |
| 数据解放措施 | 打破所有权壁垒、加强数据管理、推动标准化、培养数据素养 |
下面是一个mermaid格式流程图,展示从数据到知识的转化过程:
graph LR;
A[原始数据] --> B[数据处理];
B --> C[数据整合];
C --> D[信息提取];
D --> E[知识构建];
E --> F[知识应用];
这个流程图说明了从原始数据开始,经过处理、整合、提取信息,最终构建知识并应用的过程,强调了在数字人文研究中,将数据转化为有价值的知识是一个复杂而重要的过程。
数字人文领域开放数据与API应用挑战
超级会员免费看
34

被折叠的 条评论
为什么被折叠?



