基于特征选择和机器学习算法的多发性硬化症分类研究
在复杂系统中开发预测模型时,系统的复杂性可通过变量间关系的类型和数量来描述。为提升模型在复杂系统中的性能,减少输入变量数量至关重要。特征选择方法关注每个输入变量与目标变量的关系,以选取与目标变量关系最强的输入变量,还能避免维度灾难、降低计算成本和过拟合问题,使模型能推广到新数据。
线性变换技术的特征选择方法
- 主成分分析(PCA) :PCA 是一种统计技术,旨在简化数据集,降低多元数据的维度,同时保留相关信息。它依赖输入数据,不考虑相应的目标数据。在复杂系统中,通过找到变量的线性组合,以最优方式捕捉数据中的信息或变异性。
- PCA 的特征 :
- 不相关。
- 第一个主成分是解释总方差最多的变量。
- 下一个主成分是解释剩余方差最多的变量。
- 计算步骤 :
- 主成分得分计算:$t_k(i) = X(i)\cdot W_k$
- 第一个主成分:$w(1) = \text{argmax}(\sum_{i}(t_1)^2_i) = \text{argmax}(\sum_{i}(x(i)\cdot w)^2)$
- 矩阵形式表示:$w(1) = \text{argmax}(|Xw^2|) = \text{argmax}(w^T X^T X w)$
- PCA 的特征 :
多发性硬化症分类研究
超级会员免费看
订阅专栏 解锁全文
9652

被折叠的 条评论
为什么被折叠?



