噪声标签对监督分类模型的影响及患者住院时长预测研究
在当今数据驱动的时代,监督学习模型在各个领域都发挥着重要作用。然而,数据中存在的噪声标签和特征噪声会对模型的性能产生显著影响。同时,在医疗领域,准确预测患者的住院时长(Length of Stay, LOS)对于医院的资源管理和战略规划至关重要。本文将探讨噪声标签对监督分类模型的影响,并介绍如何利用临床和人口统计特征来提高患者住院时长的预测准确性。
噪声标签对监督分类模型的影响
在实际应用中,由于各种原因,如操作员偏差、数据采集过程错误或传感系统故障,数据可能会受到特征和类别标签噪声的污染。这些噪声数据直接影响从其训练的监督学习器。因此,了解机器学习模型对类别标签噪声的鲁棒性是一个重要的研究课题。
实验设置
实验分为两部分,分别针对合成数据集和基准数据集(KEEL 和 sklearn)进行。所有实验对所有机器学习模型和数据集进行了 10 次独立运行,并汇总了结果。
合成数据集实验结果
在合成数据集上的实验结果显示,所有机器学习模型的鲁棒性随着训练向量数量的增加而增强。这是因为未受污染的示例能够有效补偿受标签噪声影响的示例。此外,对于具有不同特征数量的数据集,模型的鲁棒性通常随着数据集维度的增加而增加,但在较小的数据集上,由于维度诅咒问题,模型的泛化能力可能会下降。总体而言,高斯过程、AdaBoost、多层感知器(MLP)和支持向量机(SVM)分类器在受污染的训练集上表现出较好的泛化能力。
| 指标 | 最小值 | 平均值 |
|---|
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



