电子健康记录与脑肿瘤分割研究:基于机器学习与深度学习的医学突破
电子健康记录中暗数据的利用
电子健康记录(EHR)数据库由非同质数据源组成,这些数据来自临床记录数据集,具有冗余、多样和不完整的特点,会直接影响模型性能。因此,电子临床数据必须进行预处理,以确保 EHR 数据集的准确性、完整性和一致性。
在第一个数据集中,SES 列有八行存在缺失值,可采用两种方法处理:一是删除包含缺失值的行,二是用不同匹配值替代缺失值(即“插补”)。由于数据集数据量少于 500,插补是加速模型性能的合适选择,这里使用中位数进行插补。第二个数据集除了 SES 有八行缺失值外,其他特征也有缺失值,所选特征中只有 SES 和 stab.glu 存在缺失值,两个数据集将进行相同的预处理步骤。
机器学习方法将临床信息提取任务转化为分类问题,这里使用随机森林机器学习分类器进行早期检测,该分类器可进行回归和分类。为关注 EHR 中暗数据的效用,比较了随机森林分类器在有无暗数据的阿尔茨海默病数据集上的性能。
使用随机森林分类器评估有无暗数据时阿尔茨海默病的预测情况。先读取两个数据集并进行预处理,然后将数据分为训练集和测试集,最后用随机森林分类器进行训练和测试。计算了最佳参数的准确率和召回率、验证集的准确率以及 AUC 分数,结果如下表所示:
| 性能指标 | 阿尔茨海默病数据集 | EHR 数据集 |
| ---- | ---- | ---- |
| 验证集准确率 | 0.7785 | 0.9927 |
| 最佳参数准确率 | 0.8421 | 0.9893 |
| 最佳参数召回率 | 0.7 | 0.9787 |
| AUC 分数 |
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



