
数据挖掘
VCanna
这个作者很懒,什么都没留下…
展开
-
模型融合
模型融合集成学习可以分为两类:(1)把强分类器进行强强联合,使得融合后的模型效果更强,称为模型融合;(2)将弱分类器通过学习算法集成起来变为很强的分类器,称为机器学习元算法。模型融合常有的做法:投票法、线性混合、Stacking;机器学习元算法又可以根据个体学习器之间是否存在依赖关系分为两类,称为Bagging和Boosting:Bagging: 个体学习器不存在依赖关系,可同时对样本随...原创 2020-04-04 19:39:17 · 272 阅读 · 0 评论 -
特征工程 -- 数据分桶 Task3
数据分桶数据分桶是一种数据预处理技术,用于减少次要观察误差的影响,是一种将多个连续值分组为较少数量的“桶”的方法。例如,例如我们有一组关于人年龄的数据,如下图所示:现在我们希望将他们的年龄分组到更少的间隔中,可以通过设置一些条件来实现:分桶的数据不一定必须是数字,它们可以是任意类型的值,如“猫”、“狗”等。分桶也可用于图像处理,通过将相邻像素组合成单个像素,可用于减少数据量。一般在建...原创 2020-03-27 17:00:57 · 5412 阅读 · 0 评论 -
数据分析Task2
数据质量分析数据分析是数据挖掘中非常重要的一步,也是对数据预处理的准备工作,如果数据分析这一步骤没有做好,那再好的数据模型都无法得到客观的验证。在对数据进行质量分析的时候,主要是处理数据中的脏数据,脏数据即是不符合要求,无法直接进行相应分析的数据。常见的脏数据包括:缺失值异常值不一致的值重复数据含有特殊符号(如#,¥,*)的数据缺失值影响数据的缺少主要包括记录的缺失和某些字...原创 2020-03-24 16:56:33 · 293 阅读 · 0 评论