细菌阴道炎数据平衡与预测模型及近似加法器电路研究
细菌阴道炎数据处理与模型构建
在细菌阴道炎(BV)的研究中,为了构建更准确的预测模型,进行了一系列实验。
首先是数据集的使用和模型训练。使用完整的BV数据集创建分类模型,采用10折交叉验证(10 - FCV)方案,重复30次。每次迭代中,9折用于模型训练,第10折用于测试。在每次运行中,计算预测模型的性能指标,最后将30次运行的性能指标取平均值,得到模型的整体性能。为确保训练和测试阶段的数据随机性,30次运行使用不同的种子,且为便于比较,所有分类器运行使用相同的种子编号。
接下来是特征排名计算。对于不平衡数据集,之前的工作使用决策树(DT)和Relief方法获得了两个特征排名,本次研究又使用支持向量机(SVM)和逻辑回归(LR)方法计算了另外两个特征排名,以评估原始不平衡数据集中特征的相关性。每个方法的实验都采用10 - FCV方案,重复30次。在交叉验证的每次迭代中,计算训练集(原始不平衡数据集的90%)中每个特征的相关性水平,基于SVM和LR的排名标准计算特征相关性,最后对10 - FCV过程的相关性测量结果取平均值,得到每个特征在30次运行中的总体相关性。
对于平衡数据集,使用随机过采样合成示例(ROSE)技术对原始BV数据集进行平衡处理,采用平滑自举法,得到完全平衡的数据集(每个类别299个实例)。同样采用10 - FCV方案,重复30次,使用SVM、LR和DT分类算法进行实验,并计算性能指标。
以下是不平衡和平衡数据集的实例总数对比:
| BV + | BV - | 总实例数 |
| — | — | — |
| 不平衡BV数据集 | 97 | 299
超级会员免费看
订阅专栏 解锁全文
1743

被折叠的 条评论
为什么被折叠?



