基于机器学习的新冠感染状态检测与自闭症诊断研究
1. 新冠感染状态检测研究
1.1 数据预处理
在数据预处理阶段,采用了独热编码(One-hot encoding)技术对数据进行标注。独热编码将分类数据转换为算法易于分析的简单格式,为目标变量的每个类别赋予不同的二进制代码。具体来说,在宿主物种(Host Species)字段使用该技术,最终得到一个包含 59,990 列的数据集。
随后,使用训练 - 测试分割(train - test split)方法,按照 80:20 的比例将数据集划分为训练集和测试集。使用训练集中 80% 的标注数据对机器学习算法进行训练,剩余 20% 的标注数据用于评估模型的准确性和泛化能力。为避免过拟合,研究采用了重复 k 折交叉验证(repeated k - fold cross - validation)方法。将数据集划分为十个折叠,每个折叠包含相同数量的数据点。每次交叉验证循环后,在最后一个折叠上测试模型,即使用九个折叠进行训练。重复该技术十次,每个折叠对应一个测试集,最后通过对十个折叠的结果求平均值来评估模型的有效性,这样能更准确地反映模型的泛化能力。
1.2 机器学习模型
研究采用了经典集成、深度学习和集成机器学习三类算法来预测冠状病毒感染人类的能力。
- 经典机器学习方法
- 决策树(DT) :一种监督学习方法,采用树状结构。决策树可用于在大型数据库中发现特征和模式,辅助进行判别和预测建模。
- K 近邻(KNN) :通过在训练文档中搜索 k 个最近邻,并利用这些
超级会员免费看
订阅专栏 解锁全文
2080

被折叠的 条评论
为什么被折叠?



