登革热感染区域与医院再入院风险预测研究
登革热感染区域预测
- 数据平衡
- 原始数据集分布偏向 0,若强行提高准确率,可能导致模型过拟合。因此,采用 SMOTE + Edited Nearest Neighbor (ENN) 集成采样方法进行数据平衡。
- 原因是在测试了 SMOTE、SMOTE + ENN 和 SMOTE + Tomek links 三种数据平衡组合后,SMOTE + ENN 得分最高。
- 模型参数调整
- RF 模型 :由于本研究分类为二元分类,使用 LogLoss 结合 Python - Scikit - learn 套件 GridSearchCV 调整 RF 参数。用大范围查找参数大致范围,再逐步缩小范围找到最合适参数。除表 3 中三个参数外,其他参数在实验中变化不大。训练时,性能不随树数量增加而下降,一定数量后趋于平稳。用 LogLoss 进行基本参数调整,再以训练集和测试集的 ROC/AUC 距离为参考调整参数。
- XGB 模型 :同样使用 GridSearchCV 找到最小 LogLoss 值调整参数。参数相互独立,分别调整。但发现若基于训练集 LogLoss 参数训练 XGB 模型,会严重过拟合,需不断调整 LogLoss 和 ROC/AUC 的过拟合情况,如 n_estimators、L1 和 L2。
超级会员免费看
订阅专栏 解锁全文
28

被折叠的 条评论
为什么被折叠?



