
机器学习/数据挖掘
泉眼里的气泡
暂无。
展开
-
主成分分析的计算方法
主成分分析(Principal Component Analysis,PCA),是通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。原创 2017-06-19 15:40:03 · 14648 阅读 · 0 评论 -
处理类不平衡的方法
在数据挖掘的时间工程中,经常会出现正样本远远少于负样本的情况,也就是类不平衡问题。原创 2017-06-22 09:30:05 · 1410 阅读 · 0 评论 -
数据规范化(归一化)方法
数据挖掘中,在训练模型之前,需要对特征进行一定的处理,最常见的处理方式之一就是数据的规范化。数据的规范化的作用主要有两个:去掉量纲,使得指标之间具有可比性;将数据限制到一定区间,使得运算更为便捷。原创 2017-06-22 09:03:38 · 20188 阅读 · 0 评论 -
缺失值的处理方法
在数据挖掘的实际工程中,由于数据采集成本、隐私保护等原因,得到的训练数据会有缺失值,现在介绍几种处理缺失值的方法。原创 2017-06-22 08:11:22 · 4543 阅读 · 0 评论 -
树模型缺失值的方法
处理数据缺失值的方法很多,此处介绍利用树模型处理缺失的方法。原创 2017-06-21 17:08:18 · 2255 阅读 · 1 评论 -
频繁模式挖掘的模式评估方法
频繁模式挖掘可以出很多模式,但是判断一个模式是否有趣,需要用到模式的评估方法。原创 2017-06-22 19:36:28 · 1795 阅读 · 0 评论 -
多重共线性的解决方法
多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。原创 2017-06-19 16:18:20 · 24062 阅读 · 0 评论 -
常用的抽样方法
在数据挖掘的实际工程中,多数时候需要从总体中抽取样本来进行模型预测。抽样的方法有多种,此处例举常见的几种。原创 2017-06-20 18:56:06 · 25699 阅读 · 0 评论 -
过拟合的解决方法
数据挖掘的实际工程中,常常出现模型在训练数据集上的效果好,而在测试集上的效果差的情况,也就是模型的泛化能力很差,这就是常说的过拟合。此处给出几种常见的过拟合解决方法。原创 2017-06-20 19:49:54 · 1210 阅读 · 0 评论 -
方差、偏差、噪声、泛化误差之间的关系
说明方差、偏差、噪声、泛化误差之间的关系原创 2017-06-07 09:18:15 · 4449 阅读 · 0 评论 -
数据对象的属性(特征)类型
在数据挖掘/机器学习过程中,当我们在对属性进行处理时,分清属性的类型是有必要的,不同类型的属性需要使用不同的处理方法,如在对对象的标识列进行处理时,对该列进行数学运算是没有意义的,因为对象的标识列一般是标称属性,只是起到唯一标识的作用。原创 2017-07-19 09:43:44 · 11633 阅读 · 0 评论