数字人文领域的数据集成与可变性建模研究进展
在当今的科技发展中,数据的管理和分析变得愈发关键,尤其是在数字人文领域。随着大数据的兴起,如何有效地集成和分析来自不同来源的历史数据成为了一个重要的研究课题。本文将探讨相关项目的进展、面临的问题以及所采用的方法和工具。
项目进展与目标
在项目推进过程中,我们正迅速将其从过去生物科学家常用的非结构化、主要依赖手动处理可变性及其管理的阶段,提升到一个利用专家知识、标准,并结合模型驱动开发(MDD)领域前沿工具和技术的结构化与元结构化水平。例如,历史学科目前仍存在手动操作的情况,像访问数据扫描时设置的验证码障碍,阻碍了数据的自动获取,即使数据以图像形式存在,也很难自动进行信息提取分析。
本项目的主要目标是提供一个概念性的大数据互操作性框架,以支持不同历史数据源之间灵活的大数据集成。这将确保数据收集、集成和分析过程的无缝衔接。我们计划应用极限模型驱动开发环境DIME,为历史大数据设计一个先进的数据集成工作流程,并将其扩展到各种数据源的特殊用途集成中。长远目标是评估利用历史大数据在现代公共卫生领域的潜在应用,以展示该框架的灵活性和鲁棒性。
面临的问题与挑战
目前,我们面临着一些问题,例如使用不同的本体来表示最终相同的数据集合、信息粒度不同以及要满足不同的研究目的。传统上,这些差异通过手动数据捕获、数据录入、转录和检查来解决,但这些工作极其繁琐且成本高昂。
采用的方法和经验借鉴
为了解决这些问题,我们打算利用XMDD方法以及之前在面向进化的软件工程方面的工作经验,包括简单性原则、连续系统工程以及对非IT专家可用性的关注。我们积累了超过十年在各个应用领域的经验,这
超级会员免费看
订阅专栏 解锁全文
23

被折叠的 条评论
为什么被折叠?



