特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的模型准确性
热编码 one-hot编码
TF-IDF
TF-IDF的主要思想是:如果某个词语或短语在一篇文章中出现概率高,并且在其它文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
TF-IDF作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度
IF:词的频率,该词的个数/总词数
IDF:逆文档频率,(总文档数量/该词出现的文档数量)的对数
IF-IDF=IF*IDF,反映了词汇在一篇文章中的重要程度
标准化
原因:
- 数据的量纲和单位不同
- 维持稀释矩阵中0的个数方便计算
- 维持数据的结构性
- 有些某些,对离散值的效果更好
具体方法:
- z-score标准化 零均值单位方差 y=(x-平均值)/标准差
- 归一化(区间缩放法)x-最小值/最大值-最小值
- 二值化 ,连续值变成离散值
python对离散特征进行编码,使模型可以计算
特征不具备大小意义的直接独热编码 one-hot encoding
特征具有大小关系可以采用映射编码
dummy encoding 哑变量编码
特征选择
- 缺失值处理
如果缺失数据较多可以直接删除此特征或者去收集更多的数据
如果缺失数据教少可以选择删除或者填充(均值、中位数、众数、随机抽样、相邻数据、建模法) - 异常值处理(通过箱线图和频次图观察数据离散情况)
- 重复数据(去重)
- 冗余数据(方差很小,共线性)
特征选择:
减少过度拟合:减少冗余数据意味着降低噪声对数据模型的影响
提高准确度
缩短训练时间
方法:人工筛选、基于方差、卡方检验、PCA