1.数值型数据
- 幅度缩放(最大最小值缩放,归一化…)
- 离散化/分箱分桶(等距:pd.cut,等频:pd.qcut)(特征交叉)
- 统计值(Max,min,quentile)
- 四则运算(加减乘除)
- 幅度变化(有一些模型对输入数据有分布建设,LR建设输入连续值特征符合正太分布)
- 监督学习分箱(用决策树建模,用决策树学习连续值划分方式,把决策树中间节点取出来作为特征组合)
2.类别型
- OneHot-encoding
- label-encoding
- binary-encoding
- category-encoding
3.时间型
- 时间点/时间段(星期几,几点钟)
- 时间分组/分段(工作日,周末,法定节假日)
- 时间间隔(距离当前为止)
- 和数值型一起做统计特征的时候,会选取不同的时间窗
- 组合
4.文本型
- 词袋模型
- tf-idf
- ida
- word2vec/word embedding
PS :本文来自七月在线作业答案