医疗数据库错误的搜索、预防与减少策略
1. 错误率与用户体验
为了探究用户在电子病历(EMRs)中输入体重信息的经验是否与较低的错误率相关,我们对 763 名至少输入 100 次体重信息的用户数据进行了分析。结果显示,这些用户在最初 100 次体重输入中的平均错误率为 0.25%,而在后续所有输入中的平均错误率降至 0.19%(P = 0.0009)。
进一步对 73 名至少输入 1000 次体重信息的用户子集分析发现,错误率从最初 200 次输入的 0.26% 逐渐降至第五个 200 次输入的 0.19%。总体来看,有更多输入体重信息经验的用户似乎有更低的错误率趋势。不过,在经过提供者内部聚类调整的逻辑回归模型中,用户经验在统计学上并不显著。这里的用户经验定义为用户在测量错误率时所进行的体重输入次数(指定一个随机值)。
在这项大规模回顾性研究中,我们开发并运用了高精度算法来识别 EMRs 中体重数据的错误,以研究其普遍性、特征和风险因素。尽管单次体重输入出错的概率较低,但由于大多数患者有多次体重输入,随着时间推移,每位患者的错误率会累积,总体错误率高达 7%。
2. 错误减少策略
2.1 数据集错误检测
数据清理工具主要分为以下三类:
- 基于规则的检测算法 :这类算法可以嵌入到如 Nadeef 等框架中。规则范围广泛,从简单的约束条件(如“<150 年”)到使用复杂函数的多参数依赖关系。
- 模式强制和转换工具 :例如 OpenRefine、Data Wrangler、Katara 和 DataXFormer
超级会员免费看
订阅专栏 解锁全文
33

被折叠的 条评论
为什么被折叠?



