
机器学习数据处理问题
文章平均质量分 94
woor_
这个作者很懒,什么都没留下…
展开
-
机器学习数据预处理——特征选择
引言 在机器学习的训练过程中,总是会碰到样本大、特征多的数据集。而这些数据集里面的数据有些是用处很小甚至完全无用的。如果一组数据中的无用数据占比较大时,一方面会使得模型的训练时间变长,另一方面模型容易出现欠拟合现象;而如果一组数据中作用较小的数据,即在训练中不能较好体现数据集中样本特征的数据,这类数据占比较大时,除了会提升模型训练的时间以外,还容易引起模型的过拟合现象。 针对这种情况,我们需要对这组数据集进行数据的预处理,其主要的方法有降噪、特征选择以及降维处理,而这次主要讲解如何进行特征选择以及特原创 2022-01-30 16:52:55 · 3581 阅读 · 0 评论 -
机器学习数据预处理——降维
引言 在机器学习的训练过程中,总是会碰到样本大、特征多的数据集。而这些数据集里面的数据有些是用处很小甚至完全无用的。如果一组数据中的无用数据占比较大时,一方面会使得模型的训练时间边长,另一方面模型容易出现欠拟合现象;而如果一组数据中作用较小的数据,即在训练中不能较好体现数据集中样本特征的数据,这类数据占比较大时,除了会提升模型训练的时间以外,还容易引起模型的过拟合现象。 针对这种情况,我们需要对这组数据集进行一个数据的预处理,其主要的方法有降噪、特征筛选以及降维处理,而这次主要讲解如何进行降维处理以原创 2022-01-15 13:14:33 · 4415 阅读 · 0 评论 -
基于机器学习的数据不平衡问题处理
基于机器学习的数据不平衡问题处理为什么要处理数据不平衡问题数据不平衡问题的处理方法欠采样过采样单分类算法其它为什么要处理数据不平衡问题数据不平衡问题是现实生活中十分常见的一个问题,如上市公司的破厂预测,冠心病人的预测,癌症患者的预测等等。这些问题的样本数据往往出现一边倒的形势,而若不做处理直接用传统的机器学习方法进行模型训练的话,容易使训练出来的模型偏向样本多的那一方,导致样本少的一方的预测效果很差,而这些问题中大部分都更加注重样本少的一方的准确率。数据不平衡问题的处理方法既然已经有上面的这些问题,原创 2021-08-29 12:14:28 · 1547 阅读 · 1 评论