
特征工程系列
拙能胜巧nsq
这个作者很懒,什么都没留下…
展开
-
特征工程——连续特征与离散特征处理方法
本文转载自https://blog.youkuaiyun.com/u014135752/article/details/80789251,非常感谢作者的整理及分享。一:连续特征z-score标准化:这是最常见的特征预处理方式,基本所有的线性模型在拟合的时候都会做 z-score标准化。具体的方法是求出样本特征x的均值mean和标准差std,然后用(x-mean)/std来代替原特征。这样特征就变成了均值...转载 2019-11-09 21:30:27 · 2129 阅读 · 0 评论 -
sklearn特征选择(过滤式,包裹式,嵌入式)
sklearn特征选择实操过滤式from sklearn.feature_selection import SelectKBestfrom sklearn.datasets import load_irisiris = load_iris()x,y = iris.data,iris.targety[:5]array([0, 0, 0, 0, 0])x[:5]array([[...原创 2019-06-25 15:18:50 · 1049 阅读 · 0 评论 -
sklearn特征工程(数值型、类别型、时间型、文本型)实操
利用sklearn做特征工程一:数值型特征1.1 对数变换(log变换)## 对数变换import numpy as nplog_age = df_train['Age'].apply(lambda x:np.log(x))1.2 MinMaxscaler(最大最小值缩放)from sklearn.preprocessing import MinMaxScalerminmax =...原创 2019-06-24 20:56:55 · 1630 阅读 · 0 评论 -
特征选择介绍
特征选择介绍1.特征选择,顾名思义,就是要选择一部分的特征用于训练,而不使用全部的特征。那么为什么要进行特征选择?有一些特征之间的相关度太高了,会大量消耗计算资源。有一些特征可能会对预测结果有负影响。2.特征选择和降维一样吗?不一样。特征选择是剔除一部分冗余的特征,剔除的这些特征和预测的关系很小。而降维本质上是将特征映射到另一个低维空间中,但是保留了数据的大部分信息。降维后的特征发生...原创 2019-06-20 09:25:29 · 1569 阅读 · 0 评论 -
数据采样与特征工程(数值型特征 类别型特征 时间型特征 文本型特征)介绍
特征工程一:特征工程介绍俗话说,“巧妇难为无米之炊”。在机器学习中,数据和特征便是“米”,模型和算法便是“巧妇”。没有充足的数据、合适的特征,再强大的模型也是没有任何作用的。对于一个机器学习问题,数据和特征往往决定了结果的上限,而模型,算法只是逐步接近这个上限。所谓特征工程,就是对最原始的数据(数字,文本,图像等)进行一系列的处理,将其提炼为特征,作为输入供算法和模型使用。二:数据清洗数...原创 2019-06-19 20:29:59 · 4806 阅读 · 0 评论