机器学习分类方法在CAD诊断与IVF数据集上的应用
1. 投票集成学习技术在CAD诊断中的应用
在医疗疾病预测中,尤其是冠状动脉疾病(CAD)的诊断,测试数据大小对预测准确性有显著影响。为了提高CAD诊断的准确性,采用了投票集成学习技术,结合随机森林(RF)、额外树分类器(ETC)、XgBoost、决策树(DT)和梯度提升机(GBM)这五种机器学习算法作为基础学习器。
1.1 集成学习原理
集成学习通过组合多个基础分类器来提高整体性能。在投票集成学习中,有软投票(SV)和硬投票(HV)两种方式。软投票考虑每个基础分类器的预测概率,而硬投票则基于多数基础分类器的预测结果进行决策。
基础分类器的加权计算方式如下:
[Q(X_i) = \sum_{m = 1}^{M} w_m \Delta_{im}]
其中,(w_m) 是分类器 (C_m) 的权重,(\Delta_{im}) 是与输入和基础分类器相关的二进制变量。如果第 (m) 个基础分类器使用样本 (K) 的第 (i) 个输入实例进行训练,则输出为 1 或 0,具体定义如下:
[\Delta_{im} =
\begin{cases}
1, & \text{当 } y_i = y_{im} \
0, & \text{当 } y_i \neq y_{im}
\end{cases}]
在本研究中,基于多数原则,为基础学习器 RF、ETC、XgBoost、DT 和 GBM 分别分配了 0.3、0.2、0.2、0.1 和 0.2 的权重。这些权重的选择基于每个基础分类器模型在每次训练 - 测试分割(TTS)中的性能
超级会员免费看
订阅专栏 解锁全文
27

被折叠的 条评论
为什么被折叠?



