数字人文领域产品线模型检查:历史数据应用探索
1. 引言
由爱尔兰研究委员会资助的“1864 - 1922 年爱尔兰死亡与埋葬数据”(DBDIrl)项目,其研究方法具有创新性,它将成为首个在开放获取环境中,利用开放获取框架和开源分析工具,建立历史登记死亡数据与其他数据类型之间联系的国家项目。
目前,大量历史大数据(hBD)虽处于公共领域,但呈孤立状态。许多数据是非结构化的,或按照原始历史本体进行结构化处理,导致数据集之间无法自然交互或实现互操作性。不过,计算能力和链接数据技术的进步,为建立特定用途收集的不同数据之间的关系提供了绝佳机会。DBDIrl 项目旨在创建和分析个人层面的历史死亡与埋葬数据之间的关系,以了解 Nikolas Rose(2007)提出的“生物公民身份”概念在爱尔兰的发展情况,以及权力动态在地区、性别和宗教层面的运作方式。该项目的主要大数据来源是民事登记(CR)的相关文件,包括出生、死亡和婚姻登记、人口普查记录和法院记录。
大数据(BD)被 Graham、Milligan 和 Weingart(2017)简单定义为“在合理时间内无法手动读取的数据,需要计算干预才能挖掘新信息的数据”。项目所使用的核心数据——民事登记死亡数据,符合这一定义。过去几十年,这些数据已被数字化,以 Microsoft Excel 索引和高分辨率 TIFF 扫描文件的形式存在。尽管 Rob Kitchin 认为以能否放入 Excel 电子表格来衡量数据“大小”的说法有些肤浅,但这确实是该 CR 数据的一个特点。项目收到的原始 CR 数据是一个包含 430 万条死亡登记记录的 Excel 索引,每条记录有 11 个字段。由于 Excel 处理超过 100 万条记录的文件功能有限,需要将其拆分
超级会员免费看
订阅专栏 解锁全文
2144

被折叠的 条评论
为什么被折叠?



