特征工程(1)

博客围绕特征处理与选择展开。介绍了特征缩放,如Min - Max scaling、standardization、l2 normalization等,还提及对不同模型的影响;阐述了分布处理,像binarization、log transform等;说明了交互特征使用成本高;最后介绍了特征选择的过滤法、包装法和嵌入法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

simple numbers

scale:不改变feature的原始分布

smooth function of models:k-means, 最近邻,rbf等使用欧几里得距离的模型对输入数据的scale敏感,需要normalize to expected scale。
lr model,logistic model,以及任何用到了matrix的model都对number scale 敏感。
logical function is not sensitive to number scales: tree, space partition tree, 随机森林,gbdt。

  1. Min-Max scaling
    x~=x−min⁡(x)max⁡(x)−min⁡(x) \tilde{x}=\frac{x-\min (x)}{\max (x)-\min (x)} x~=max(x)min(x)xmin(x)

  2. standardization:variance scaling:mean=0,variance=1
    x~=x−mean⁡(x)sqrt⁡(var⁡(x)) \tilde{x}=\frac{x-\operatorname{mean}(x)}{\operatorname{sqrt}(\operatorname{var}(x))} x~=sqrt(var(x))xmean(x)
    注意:这两种变换可以导致稀疏向量(0多)变为稠密,增加计算负担。

  3. l2 normalization:将原始数据投射到半径为一的单位圆(data space),但是不改变单一feature的概率分布。
    L2 norm:衡量vector在坐标空间的长度x~=x∥x∥2 \tilde{x}=\frac{x}{\|x\|_{2}} x~=x2x
    ∥x∥2=x12+x22+…+xm2 \|x\|_{2}=\sqrt{x_{1}^{2}+x_{2}^{2}+\ldots+x_{m}^{2}} x2=x12+x22++xm2

distribution

lr model assume the predict error to be Gaussian distributed.

  • 处理方式:
    binarization;quantization or bin
    log transform
    压缩large scale numbers,扩展samll scale numbers;处理非负长尾数据,将长尾压缩,短尾扩张;但不一定对所有模型都有效,(数据可视化的重要性)
    power trans:(variance stabling)
    方差稳定性:power trans 改变原始数据的分布,使得一些方差依赖均值(泊松)的分布变化之后不再依赖。
    box-cox trans:
    x~={xλ−1λ if λ≠0ln⁡(x) if λ=0 \tilde{x}=\left\{\begin{array}{ll}{\frac{x^{\lambda}-1}{\lambda}} & {\text { if } \lambda \neq 0} \\ {\ln (x)} & {\text { if } \lambda=0}\end{array}\right. x~={λxλ1ln(x) if λ̸=0 if λ=0

interaction features

expensive to use;

feature selection

  1. filtering:计算相关系数,互信息量;没有考虑model;cheap;可能会误删有用的feature
  2. wrapped method:expensive,但是不会误删有用的features
  3. embedded method:特征选择是train的一部分
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值