历史档案数据转化与丹麦数字存档的关键要点
1. 衍生变量与公平性评估
在数据处理中,衍生变量的创建原理、概念提出者以及对数据源性质的理解,都会极大影响其对原始信息的反映程度。在公平性评估方面,标准化和质量控制若不采取特定措施来考量数据源中不常见的表达和关系,通常只会让多数群体受益。这一过程还可能使小群体的分析变得困难,在某些方案中,这些小群体可能会被归入“其他”等剩余类别。
例如,在 Link - Lives 项目里,像南日德兰地区使用的德语等非丹麦语书写的姓名、地点和概念,目前的工作难以很好地捕捉,这将留待未来迭代处理。若某些差异对女性、特定年龄段或特定群体的影响更大,这些过程会进一步放大这种影响。标准化和变量创建都需要在新型代码手册中进行详细记录,以说明转录数据的所有新变化。
2. 记录链接
Link - Lives 项目旨在通过链接不同数据源中人物的出现情况来描绘人生历程。但在开始链接前,需要思考两个关键问题:一是两个数据源之间的链接是如何构成的;二是如何确定所建立的链接是真实有效的。由于历史确定性不存在,也无法证明一个链接确实是有效的,“地面真值”这一机器学习中的基准概念在这种情况下并不存在。
即便通过与其他互补数据源交叉核对,确定两个数据源极有可能指向同一个人,这种链接也只是“极有可能”的链接。Link - Lives 项目创建了一个由领域专家手动生成的代表性链接池,用于测试和训练,这并非“地面真值”,而是作为基准的最佳近似值。这些测试和训练链接的生成过程已通过书面最佳实践和用户指南详细记录,并通过双重链接进行内部测试,有分歧时由仲裁者决定。
建立链接的方法众多,从创建“如果……那么……”语句来评估两条记录相似度的基于
超级会员免费看
订阅专栏 解锁全文
74

被折叠的 条评论
为什么被折叠?



