
特征工程
QueenieK
这个作者很懒,什么都没留下…
展开
-
特征选择
特征选择 特征选择和降维的不同:特征选择只是删除了原始特征里和结果预测关系不大的特征,后者做特征的计算组合构成了新的特征。 特征选择包含:过滤型、包裹型、嵌入型 过滤型 方法:评价单个特征和结果之间的相关程度,排序留下Top相关的部分。 评价方式:Pearson相关系数、互信息 缺点:没有考虑到特征之间的关联作用,可能把有用的关联特征踢掉。...转载 2018-04-27 10:15:16 · 313 阅读 · 0 评论 -
特征处理之统计特征
特征处理之统计特征 历届的Kaggle/天池比赛,天猫/京东排序和推荐业务线里模型用到的特征 1.加减平均:这个用户所买商品高于所有用户购买商品平均价格的多少(权衡一个人的消费能力),用户连续登录天数超过平均多少(表明这个用户对该产品的黏性) 2.分位线:商品属于售出商品价格的多少分位线处。(比如20%,说明20%的人买东西都不会低于这个价格)。 3...转载 2018-04-27 10:12:32 · 9385 阅读 · 0 评论 -
数据与特征处理
不同数据类型处理 数值型 统计值:max,min,mean,std(方差) 离散化 比如将价格分成不同的段(可以等宽也可以不等宽),每一段表示一个向量,不同的价格可能会是同一个向量。 Hash分桶 每个类别下对应的变量统计值histogram(分布状况) 可将数值型 => 类别型 幅度调整/归一化 类别型 one-hot编码/哑变量 比如红、黄、蓝分别对应一个向量,...原创 2018-04-27 10:09:05 · 746 阅读 · 0 评论 -
数据不平衡
转自:https://blog.youkuaiyun.com/lujiandong1/article/details/52658675 这几年来,机器学习和数据挖掘非常火热,它们逐渐为世界带来实际价值。与此同时,越来越多的机器学习算法从学术界走向工业界,而在这个过程中会有很多困难。数据不平衡问题虽然不是最难的,但绝对是最重要的问题之一。 一、数据不平衡 在学术研究与教学中,很多算法都有一个基本...转载 2018-04-26 16:00:56 · 5138 阅读 · 2 评论 -
特征工程-数据归一化和标准化
定义 归一化:Xi−XminXmax−XminXi−XminXmax−Xmin\frac{X_i-X_{min}}{X_{max}-X_{min}} 标准化:Xi−μσXi−μσ\frac{X_i-\mu}{\sigma} 其中 μμ\mu 和 σσ\sigma 代表样本的均值和标准差, XmaxXmaxX_{max} 为最大值, XminXminX_{min} 为最小值。 本质 归...原创 2018-04-26 10:29:19 · 833 阅读 · 0 评论