
特征工程笔记
文章平均质量分 72
数据挖掘流程中的特征工程笔记
凡凡凡凡-
一摸鱼大学生
展开
-
特征工程笔记(二) 异常值检测及处理的基本方法
一、异常处理的必要性 某些能够忽略异常值的算法,可以不做异常处理,如决策树模型 某些根据变量权重或是距离构建模型的算法做异常处理具有重要意义 二、单变量异常常用检测方法 单变量异常检测只针对单一特征,找出该特征下的样本异常值 (1)根据常识或业务知识 根据某些变量的相关常识或是业务知识,为变量设定范围值,视超出限定范围的为异常值 举例:某些限定正数变量,出现负值即为异常值。 特点:较为灵活,识别准确度高,需要一定的业务知识 (2)均值/标准差法 假设分布服从正态/高斯分布,根据3σ原则可进行异原创 2021-08-12 18:52:55 · 2241 阅读 · 0 评论 -
特征工程笔记(一) 特征工程整体框架
注:本人目前知识水平有限,仅代表个人经验的总结,若有补充或建议欢迎评论 一、特征的初步筛选 1.根据业务知识筛除与目标特征无关特征 2.统计各个特征样本缺失占比,遵循二八原则,超过80%则筛除。 3.某离散特征下,其某一个值占比过高(超过90%),则可视为准常量特征而进行筛除。 二、各特征转数值型特征 由于大部分模型的特征输入需要定量特征,因此常常需要先将各特征转化为数值型特征 1.类数值型特征(如:123米等等):去除单位后转化为数值型特征。 2.类别特征:常作编码处理 (1)二值化编码(0原创 2021-07-22 16:44:30 · 378 阅读 · 0 评论