生物医学与植物研究的数据管理经验与实践
1. 生物医学数据整合与可用性系统应用
1.1 数据整合背景与目标
在生物医学领域,将临床健康登记数据与生物样本库数据进行整合面临诸多挑战,如法律、政治、语义和隐私等问题。不过,可用性系统为这一整合过程提供了有效的解决方案。通过该系统,能够实现临床健康登记数据与生物样本库数据的整合,同时还可运用统计披露控制(SDC)方法加强隐私保护。
1.2 数据来源与处理
- 数据来源 :使用了瑞典国家前列腺癌质量登记处的健康登记数据,包含前列腺癌诊断、治疗和随访信息;以及瑞典卡罗林斯卡学院生物样本库的数据,涵盖患者的 DNA、血清和血液等生物样本信息。这两份数据均以 CSV 文件形式提供,且都包含以瑞典个人号码形式存在的个人标识符(PID),便于数据关联。
- 数据模拟与子集构建 :由于数据受隐私法规限制,无法提供公共访问的开放系统。为进行演示,模拟了 1000 名前列腺癌患者的数据,以及 1000 个生物样本的数据,并确保通过 PID 关联的集合之间有大量重叠。从模拟数据中构建了三个子集:
- 子集 A :健康登记处的实际值和生物样本库的可用性数据。
- 子集 B :健康登记处和生物样本库的可用性数据。
- 子集 C :健康登记处和生物样本库的匿名化可用性数据。
超级会员免费看
订阅专栏 解锁全文

1492

被折叠的 条评论
为什么被折叠?



