38、数字人文领域的数据获取与利用挑战及解决方案

数字人文领域的数据获取与利用挑战及解决方案

1. JCDJ项目的资源连接尝试

JCDJ致力于连接资源的两端。尽管最终由人类用户解读聚合数据,但像维基百科和路线图这类阅读辅助工具能显著提升叙事水平,将碎片化数据转化为上下文信息,这在处理多学科数据时尤为重要。对于不熟悉自身专业领域外术语的用户来说,维基百科是JCDJ项目中的有效解决方案。

不过,JCDJ基于预先选定的资源构建,在这方面并不完全令人满意,因为与在整个网络上搜索信息相比,新发现的可能性较低。此外,还存在一些更基础的理论和技术问题,如如何搜索和识别分布式数据(资源发现)、按需更无缝地连接它们(资源连接性)以及创建故事(信息和知识形成)。

2. API应用的技术挑战

在API应用方面,存在诸多挑战:
- 数据结构差异大 :分析API的数据结构是一项极具挑战性的任务,即使是经验丰富的数据分析师也不容易完成。需要具备领域知识和技术技能来“解码”数据,而且使用多个API会使问题更加复杂,这也增加了跨学科研究的难度。
- 实时多调用导致性能缓慢 :应用完全依赖外部API,对于数据再利用者来说,性能缓慢并非小问题,需要技术进步和资金投入来实现真正有用的分布式研究。
- API密钥问题 :许多API使用需要手动请求的API密钥,这与开放数据的理念相矛盾。例如DBpedia等服务就不需要API密钥。服务提供商需要一定的安全性和信任,但API密钥的使用增加了开发的复杂性。
- 数据归一化和编码耗时 :不同的字符串分隔符等因素导致数据归一化问题,开发者需要对数据进行归一化处理以使其兼容。

以下是这些挑战的总结表格:
|挑战类型|具体描述|
| ---- | ---- |
|数据结构差异大|分析API数据结构困难,跨学科研究更复杂|
|实时多调用导致性能缓慢|依赖外部API,影响数据再利用者|
|API密钥问题|与开放数据理念矛盾,增加开发复杂性|
|数据归一化和编码耗时|不同分隔符等因素导致归一化处理必要|

此外,API开发中人类交互程度不可忽视,从API密钥注册的管理干预到数据归一化和策展,整个过程都很耗时。Verborgh严厉批评了API的复杂性和滥用问题,他建议不使用API,而是坚持HTTP内容协商来提供多种机器访问可能性。目前,许多对数字人文有用的API可能无法提供最佳的访问和数据再利用环境,而DBpedia则以用户友好的方式实现,提供了十二种访问格式,且不需要API密钥。

3. 构建用户友好的API

为了改善API的应用情况,可以从以下两个方面入手:
- API标准化 :尤其是核心数据结构的标准化,这涉及数据互操作性的理论框架。标准化可以减少技术问题,避免开发者花费大量时间分析第三方的数据结构、格式和编码等。目前,JSON Schema和API Blueprint等尝试解决这一问题,基于JSON Schema的Swagger和OpenAPI在API社区中得到了快速部署。例如,欧洲艺术API控制台最近就用Swagger进行了翻新。但API元数据可以使用更广泛使用的模式元素名称,如都柏林核心和DCAT,并且可以指定是数据发现API还是数据集访问API。
- 用户友好的GUI工具 :主要针对非开发者,用于浏览和组织API数据。该工具应能在标准网页浏览器中可视化数据,具备检测API参数、查询、显示、过滤、排序和分页数据等功能。Swagger具备一些此类功能,但主要面向软件开发人员。理想的GUI工具应能处理多个API,例如在指定外键的情况下映射或合并不同的API数据集,还应具备从整个网络搜索和识别API的功能。APIs.io和APIs.json等是定义高级API元数据和自动索引API的尝试,可以作为GUI工具的模型。

以下是构建用户友好API的步骤流程图:

graph LR
    A[API标准化] --> B[减少技术问题]
    C[用户友好的GUI工具] --> D[方便非开发者使用]
    B --> E[数据互操作性提升]
    D --> F[数据浏览和组织更高效]
4. 数据解放与易用数据

目前,新手技术人员使用开放数据仍存在较高障碍。许多开放数据项目针对有编程能力的开发者和研究人员,在数字人文领域,很多人文学者可能不具备编程能力。因此,开放数据需要通用设计,实现真正的数据解放,即“数据革命”,让所有类型的人都能使用开放数据,实现“易用数据”的目标。

在数字人文领域,不应根据不同的访问方法划分用户目标。虽然通常认为网页界面面向非技术用户,API面向开发者和机器访问,但实际上两者提供的服务并不相同。例如,用户无法通过网页界面比较不同网站/领域的数据集,而API可以做到。API应更注重平等的可访问性和更低的适应门槛,解决“数字鸿沟”问题。如果提供正确的培训,每个人都应该能够像使用文字处理或电子表格软件一样使用API。

5. 人文领域的可访问链接数据丰富与可视化

在人文领域,如Musacces项目,致力于丰富可用的链接数据,以方便专家工作。当前版本的原型MPOC1已实现第一步,允许访问和可视化与西班牙普拉多博物馆相关的信息。该项目主要通过两种方式使用语义技术:
- 数据管理 :从不同资源管理可用数据,创建“本地存储库”用于研究目的。其功能基于爬虫提取艺术品及其艺术家的所有可用元数据,以及一个允许专家协作的丰富组件,以便根据用户引导访问和可视化信息。
- 语义图的使用 :下一步将使用语义图,帮助专家不仅创建解释不同历史阶段的文本叙事,还创建一个管理模型,允许与构成叙事的语义对象及其关系进行交互。这样,专家可以为特定社会群体创建个性化叙事,并从不同角度(故事情节、地图、事件列表等)进行可视化,同时考虑公众的能力进行不同的展示。

总之,数字人文领域在数据获取、API应用和数据利用等方面面临诸多挑战,但也有相应的解决方案。通过API标准化、开发用户友好的工具以及实现数据解放等措施,可以推动数字人文领域的发展,让更多人能够参与到数据的使用和研究中。

数字人文领域的数据获取与利用挑战及解决方案

6. 解决数据获取与利用挑战的重要性

解决数字人文领域数据获取与利用挑战具有多方面的重要意义。首先,从研究角度来看,解决API应用的技术挑战能让不同学科的研究者更方便地获取和整合数据,促进跨学科研究的发展。例如,在文化研究中,可能需要结合历史、艺术、地理等多方面的数据,标准化的API和用户友好的工具能使这些数据的获取和分析更加高效。

其次,数据解放和易用数据的实现可以降低数字人文研究的门槛,让更多人文学者能够参与到数字研究中来。这有助于打破传统研究中技术壁垒的限制,使研究成果更加多元化和丰富。

再者,对于文化遗产的保护和传承,如Musacces项目中对博物馆数据的管理和利用,能够更好地展示和传播文化遗产,让更多人了解和欣赏文化的魅力。

7. 未来发展趋势与展望

随着技术的不断发展,数字人文领域在数据获取与利用方面有望迎来新的突破。以下是一些可能的发展趋势:
- API标准化的进一步完善 :未来可能会出现更统一、更完善的API标准,减少数据结构差异和编码问题,使API的使用更加便捷。例如,可能会出现一个被广泛认可的通用API元数据标准,让不同的API之间能够更好地实现互操作性。
- 智能化工具的发展 :用户友好的GUI工具可能会朝着智能化方向发展,具备自动识别API参数、自动进行数据归一化和编码等功能。甚至可以通过人工智能技术,根据用户的需求自动推荐合适的API和数据资源。
- 数据共享与合作的加强 :开放数据的理念将得到更广泛的传播和实践,不同的数据提供者和使用者之间将加强合作,形成一个更加开放、共享的数据生态系统。例如,博物馆、图书馆、研究机构等之间可能会建立更紧密的合作关系,共享数据资源。

8. 应对挑战的策略总结

为了应对数字人文领域数据获取与利用的挑战,可以采取以下策略:
|策略|具体内容|
| ---- | ---- |
|推动API标准化|行业内共同制定和遵循统一的API标准,减少数据处理的复杂性|
|开发智能化工具|研发具备自动识别、归一化等功能的GUI工具,方便非技术人员使用|
|加强数据共享与合作|促进不同机构和个人之间的数据共享,形成开放的数据生态|
|提供培训和教育|为数字人文领域的人员提供API使用和数据处理的培训,提高整体技术水平|

9. 案例分析:MPOC1的成功经验

MPOC1作为Musacces项目的原型,为数字人文领域的数据利用提供了成功的案例。其成功经验主要体现在以下几个方面:
- 明确的目标导向 :项目明确以方便专家管理和利用博物馆数据为目标,通过爬虫和丰富组件实现了数据的有效获取和可视化。
- 合理的技术应用 :采用语义技术,创建本地存储库和使用语义图,为数据管理和叙事创作提供了有力支持。
- 注重用户体验 :在设计过程中考虑了专家的需求,允许专家协作,根据用户引导进行信息的访问和可视化。

以下是MPOC1项目的实施步骤流程图:

graph LR
    A[确定项目目标] --> B[数据收集与管理]
    B --> C[开发爬虫与丰富组件]
    C --> D[创建本地存储库]
    D --> E[使用语义图]
    E --> F[创建个性化叙事]
    F --> G[可视化展示]
10. 结论

数字人文领域在数据获取与利用方面虽然面临着数据结构差异、API密钥问题、数据归一化等诸多挑战,但通过API标准化、开发用户友好的工具、实现数据解放等一系列解决方案,能够逐步克服这些困难。像MPOC1这样的成功案例为我们提供了宝贵的经验,未来随着技术的发展和策略的实施,数字人文领域将迎来更广阔的发展前景,让更多人能够参与到数字人文研究中来,推动文化的传承和发展。我们应该积极拥抱这些变化,不断探索和创新,为数字人文领域的发展贡献力量。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值