特征工程中的常用操作

本文全面解析了数据预处理的方法,包括数值型数据的幅度缩放、离散化,类别型数据的编码转换,时间型数据的时间分组,以及文本型数据的词袋模型和tf-idf等。通过这些方法,可以将原始数据转化为适合机器学习模型训练的形式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.数值型数据

  • 幅度缩放(最大最小值缩放,归一化…)
  • 离散化/分箱分桶(等距:pd.cut,等频:pd.qcut)(特征交叉)
  • 统计值(Max,min,quentile)
  • 四则运算(加减乘除)
  • 幅度变化(有一些模型对输入数据有分布建设,LR建设输入连续值特征符合正太分布)
  • 监督学习分箱(用决策树建模,用决策树学习连续值划分方式,把决策树中间节点取出来作为特征组合)

2.类别型

  • OneHot-encoding
  • label-encoding
  • binary-encoding
  • category-encoding

3.时间型

  • 时间点/时间段(星期几,几点钟)
  • 时间分组/分段(工作日,周末,法定节假日)
  • 时间间隔(距离当前为止)
  • 和数值型一起做统计特征的时候,会选取不同的时间窗
  • 组合

4.文本型

  • 词袋模型
  • tf-idf
  • ida
  • word2vec/word embedding

PS :本文来自七月在线作业答案

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值