特征工程

最新推荐文章于 2025-10-21 08:37:18 发布

原创最新推荐文章于 2025-10-21 08:37:18 发布 · 130 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程，从而提高了对未知数据的模型准确性

热编码 one-hot编码

TF-IDF

TF-IDF的主要思想是：如果某个词语或短语在一篇文章中出现概率高，并且在其它文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。
TF-IDF作用：用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度

IF：词的频率，该词的个数/总词数
IDF：逆文档频率，（总文档数量/该词出现的文档数量）的对数
IF-IDF=IF*IDF，反映了词汇在一篇文章中的重要程度

标准化

原因：

数据的量纲和单位不同
维持稀释矩阵中0的个数方便计算
维持数据的结构性
有些某些，对离散值的效果更好

具体方法：

z-score标准化零均值单位方差 y=(x-平均值)/标准差
归一化（区间缩放法）x-最小值/最大值-最小值
二值化，连续值变成离散值

python对离散特征进行编码，使模型可以计算
特征不具备大小意义的直接独热编码 one-hot encoding
特征具有大小关系可以采用映射编码

dummy encoding 哑变量编码

特征选择

缺失值处理
如果缺失数据较多可以直接删除此特征或者去收集更多的数据
如果缺失数据教少可以选择删除或者填充（均值、中位数、众数、随机抽样、相邻数据、建模法）
异常值处理（通过箱线图和频次图观察数据离散情况）
重复数据（去重）
冗余数据（方差很小，共线性）

特征选择：
减少过度拟合：减少冗余数据意味着降低噪声对数据模型的影响
提高准确度
缩短训练时间

方法：人工筛选、基于方差、卡方检验、PCA

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。