18、电子健康记录与脑肿瘤分割研究:基于机器学习与深度学习的医学突破

电子健康记录与脑肿瘤分割研究:基于机器学习与深度学习的医学突破

电子健康记录中暗数据的利用

电子健康记录(EHR)数据库由非同质数据源组成,这些数据来自临床记录数据集,具有冗余、多样和不完整的特点,会直接影响模型性能。因此,电子临床数据必须进行预处理,以确保 EHR 数据集的准确性、完整性和一致性。

在第一个数据集中,SES 列有八行存在缺失值,可采用两种方法处理:一是删除包含缺失值的行,二是用不同匹配值替代缺失值(即“插补”)。由于数据集数据量少于 500,插补是加速模型性能的合适选择,这里使用中位数进行插补。第二个数据集除了 SES 有八行缺失值外,其他特征也有缺失值,所选特征中只有 SES 和 stab.glu 存在缺失值,两个数据集将进行相同的预处理步骤。

机器学习方法将临床信息提取任务转化为分类问题,这里使用随机森林机器学习分类器进行早期检测,该分类器可进行回归和分类。为关注 EHR 中暗数据的效用,比较了随机森林分类器在有无暗数据的阿尔茨海默病数据集上的性能。

使用随机森林分类器评估有无暗数据时阿尔茨海默病的预测情况。先读取两个数据集并进行预处理,然后将数据分为训练集和测试集,最后用随机森林分类器进行训练和测试。计算了最佳参数的准确率和召回率、验证集的准确率以及 AUC 分数,结果如下表所示:
| 性能指标 | 阿尔茨海默病数据集 | EHR 数据集 |
| ---- | ---- | ---- |
| 验证集准确率 | 0.7785 | 0.9927 |
| 最佳参数准确率 | 0.8421 | 0.9893 |
| 最佳参数召回率 | 0.7 | 0.9787 |
| AUC 分数 |

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值