
特征工程
haozhepeng
这个作者很懒,什么都没留下…
展开
-
特征降纬PCA,LDA
参考 :https://www.jianshu.com/p/6a9db201cb13 当特征选择完成后,可以直接训练模型了,但是可能由于特征矩阵过大,导致计算量大,训练时间长的问题,因此降低特征矩阵维度也是必不可少的。但不要盲目降维,当你在原数据上跑到了一个比较好的结果,又嫌它太慢的时候才进行降维,不然降了半天白降了。 常见的降维方法有主成分分析法(PCA)和线性判别分析(LDA),线性判别分析...转载 2019-07-13 23:22:04 · 204 阅读 · 0 评论 -
归一化和标准化
转自:https://www.cnblogs.com/nxf-rabbit75/archive/2019/04/11/10688593.html 一、是什么? 1.归一化 是为了将数据映射到0~1之间,去掉量纲的过程,让计算更加合理,不会因为量纲问题导致1米与100mm产生不同。 归一化是线性模型做数据预处理的关键步骤,比如LR,非线性的就不用归一化了。 归一化就...转载 2019-07-13 23:50:46 · 292 阅读 · 0 评论 -
如何解决样本不均衡问题
转:https://zhaokv.com/machine_learning/2016/01/learning-from-imbalanced-data.html 这几年来,机器学习和数据挖掘非常火热,它们逐渐为世界带来实际价值。与此同时,越来越多的机器学习算法从学术界走向工业界,而在这个过程中会有很多困难。数据不平衡问题虽然不是最难的,但绝对是最重要的问题之一。 一、数据不平衡 在学术研究与...原创 2019-07-13 23:52:22 · 545 阅读 · 0 评论 -
特征工程
转https://www.cnblogs.com/jasonfreak/p/5448385.html 目录 1 特征工程是什么? 2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾 3...转载 2019-07-13 23:59:28 · 139 阅读 · 0 评论 -
处理缺失值
处理缺失值主要有以下几种方法: 1.当某个变量或者某个样本中缺失值占比过大时,那么我们可以认为这一变量或者样本没有意义,可以直接删除。 2.用平均值、中值、分位数、众数、随机值等替代。效果一般,因为等于人为增加了噪声。 3.用其他变量做预测模型来算出缺失变量。效果比方法2略好。有一个根本缺陷,如果其他变量和缺失变量无关,则预测的结果无意义。如果预测结果相当准确,则又说明这个变量是没必要加入建...转载 2019-07-14 08:58:22 · 1238 阅读 · 0 评论