档案记录向历史大数据的转变:流程、挑战与公平性考量
在数据处理和分析的过程中,决策和行动起着核心作用,强调人类在推动数据通过各个阶段的重要性,避免计算应用的抽象性掩盖人类的参与。同时,当前新算法的实施中出现了记录“算法公平性”的趋势,旨在评估算法使用可能带来的潜在偏差后果。
1. 记录创建
记录创建是整个流程的起点,通常在机构或其代理人进行官方业务时产生。Link - Lives项目所使用的数据源大多包含丹麦人口的基本登记信息,这些信息主要用于公共管理。不过,不同类型的记录存在一定的局限性:
- 教区记录 :由于孩子的洗礼或出生登记通常在丹麦国教教堂或其他教派教堂进行,宗教少数群体、流动人口和死胎可能在教区记录中登记不足。而且,教区婚姻记录仅涵盖在丹麦教堂举行婚礼的人群,对于在国教教堂外举行的婚姻存在记录缺口。
- 人口普查记录 :虽然总体上人口普查记录的覆盖率较高,但也存在一些问题。例如,1787年和1801年的两次最古老的普查覆盖率最低,预期遗漏率不到3%;而1850年的战时普查覆盖率估计超过99%。此外,丹麦地理边界的变化也影响了普查的覆盖范围,如南日德兰在不同历史时期的管理和普查情况不同。首都哥本哈根也存在偏差,其教区登记信息不如其他地区详细,但普查频率较高,导致人口数据在总体中的占比过高。
以下是不同时期人口普查覆盖率的简单表格:
| 普查年份 | 覆盖率 |
| ---- | ---- |
| 1787年 | < 97% |
| 1801年 | < 97% |
| 1850年 | > 99% |
超级会员免费看
订阅专栏 解锁全文
773

被折叠的 条评论
为什么被折叠?



