数字人文领域的产品线建模与分析
在数字人文研究中,对特定项目核心问题进行精确且舒适的研究,需要创建一种新的、细粒度且组织良好的表示方式,以便于未来的适应、扩展、过滤和使用。
1. 主题领域细化:细粒度数据表示
DBDIrl 首先关注的是死亡原因数据。例如,我们旨在创建特定疾病的热图,并将其与死亡年龄等因素相关联,这有助于开展健康社会决定因素、后饥荒时期爱尔兰的表观遗传变化、特定疾病的队列和性别分析等研究。
然而,原始的 CR GROdata 并不适合这些研究。其表格中的每一列包含多个独特的信息片段,使得以原始格式分析数据变得困难。例如,死亡日期和地点被耦合在一个字段“date_and_place_of_death”中,但为了进行预期的分析,必须将它们分开。
从 GRO 收到的 Excel 文件中,类别细分更加有限。某些类别在接收时未填充,如“deceased_civil_status”,其中绝大多数条目包含 NULL 值,这可能是在文件导出过程中出现的问题,暴露了 Excel 文件格式的脆弱性。同样的问题在“deceased_date_of_death”类别中也普遍存在。
为了实现项目目标,我们进行了进一步的数据录入,并将类别细分到更细粒度的级别,以符合查询的原子粒度。这导致创建了十五个额外的字段,并使用从 TIFF 文件中提取的相关数据进行填充。
表 3 展示了具有 24 个单独有意义类别的 GROdata - 精细表示。通过数据录入和拆分操作,如将字母数据与数字数据分离,我们对单个条目进行了转换。这些额外的类别为研究议程提供了更有意义的粒度。
超级会员免费看
订阅专栏 解锁全文
764

被折叠的 条评论
为什么被折叠?



