医疗数据库中的错误查找与预防
1. 引言
损坏的数据或缺失的值会对分析流程产生严重的负面影响。即使是理想的机器学习方法,也无法基于失真的信息找到可接受的解决方案。在过去二十年中,人们进行了大量研究来开发算法和数据清理工具。然而,由于数据的异质性、简单的拼写错误、格式错误、旧数据集成等问题,错误检测是一项非常困难的任务。数据质量和数据清理策略的有效性高度依赖于具体情境、领域、应用和用户。在医学领域,这表现为数据录入时的分析工作需求以及各种数据类型所导致的特定错误。数据录入错误会因初始医疗文档中的错误而加剧。
2. 从初始医疗文档向研究数据库转移信息时的数据录入错误
2.1 分析的数据库
我们分析了几个研究数据库的数据,这些数据库包含了在一家学术医疗中心接受放射治疗的肿瘤患者的治疗和预后信息。数据库使用了 MS Access 客户端和 PostgreSQL 数据库服务器,通过标准的 MS Access 表单图形用户界面进行数据录入。经过培训的技术人员通常从电子或纸质医疗记录中手动复制数据录入到这些数据库中。为了尽量减少数据录入错误,使用了特定参数范围的约束和基于其他字段值的动态约束,但未对录入特定记录的人员进行跟踪。典型记录包含患者的人口统计信息、病情诊断日期(定义为活检日期)、门诊放疗首次和末次就诊日期、最后随访日期(放疗疗程结束后)以及当前随访状态(缓解、复发、因治疗的癌症死亡、因其他原因死亡)。我们采用了两种策略来识别错误录入:极不可能/内部不一致的数据以及不同数据库中重复数据录入之间的差异(外部不一致的数据)。
2.2 不可能/内部不一致的数据
为了评估研究数据库中的不可能录入和内部不一致情况,我们分析了
医疗数据库错误检测与预防
超级会员免费看
订阅专栏 解锁全文
13

被折叠的 条评论
为什么被折叠?



