特征变换简介

特征变换方法详解

原创于 2025-09-01 11:18:57 发布 · 1k 阅读

CC 4.0 BY-SA版权

文章标签：

19 篇文章

订阅专栏

11 篇文章

订阅专栏

特征变换是数据预处理中的关键步骤，用于将原始特征转换为更适合模型处理的形式，从而提升模型性能。常见的特征变换方法包括数学变换、分箱（Binning）和交互特征构造，以下是详细解析：

数学变换通过对原始特征应用数学函数，改变特征的分布形态或尺度，使其更符合模型假设（如线性关系、正态分布等）。

对数变换（Log Transformation）
公式：( x’ = \log(x) ) 或 ( x’ = \log(x + c) )（( c ) 为常数，避免 ( x \leq 0 )）
适用场景：处理右偏分布数据（如收入、用户活跃度），压缩大值区间，放大小值区间，使分布更接近正态。
注意：仅适用于正值特征，负值或零需先偏移（如 ( x + |\min(x)| + 1 )）。
指数变换（Exponential Transformation）
公式：( x’ = e^x )、( x’ = x^k )（( k ) 为常数，如0.5即平方根变换）
适用场景：处理左偏分布数据，或强化特征与目标的非线性关系（如平方根变换可缓解极端值影响）。
倒数变换（Reciprocal Transformation）
公式：( x’ = 1/x )
适用场景：特征值范围极大且分布不均时（如距离、时间），降低大值权重。
Box-Cox变换
公式：通过参数 ( \lambda ) 自适应选择变换形式（如 ( \lambda=0 ) 时等价于对数变换，( \lambda=1 ) 时不变）
适用场景：自动化优化特征分布，使其更接近正态分布，需通过最大似然估计确定 ( \lambda )。

分箱是将连续型特征划分为若干离散区间（“箱”），将数值型数据转换为类别型数据的过程。

等宽分箱（Equal Width Binning）
按固定区间宽度划分（如年龄每10岁为一箱：[0,10)、[10,20)…）。
优点：简单直观；缺点：对极端值敏感，可能导致部分箱内样本极少。
等频分箱（Equal Frequency Binning）
按样本数量划分，每个箱内样本数大致相等（如将1000个数据分为5箱，每箱约200个）。
优点：避免极端值导致的空箱；缺点：区间宽度可能不合理（如收入箱跨度差异大）。
聚类分箱（Clustering-based Binning）
用聚类算法（如K-Means）将相似值聚为一箱，自动识别数据中的自然分组。
优点：贴合数据分布；缺点：计算复杂，需确定聚类数量。
自定义分箱（Domain-based Binning）
基于业务知识划分（如成绩分为“不及格<60”“及格60-80”“优秀>80”）。
优点：符合业务逻辑；缺点：依赖领域知识，主观性强。

分箱后需对离散区间进行编码（如独热编码、标签编码），才能输入模型。例如：

交互特征是通过对两个或多个原始特征进行组合（如加减乘除、逻辑运算）生成的新特征，用于捕捉特征间的协同作用。

数学运算交互：
- 乘积：如“面积×单价=总价”“时长×速率=距离”；
- 比例：如“人均收入=总收入/家庭人数”；
- 加减：如“年龄差=用户年龄-产品目标年龄”。
逻辑交互：
基于特征取值范围的组合，如“高收入且年轻”（收入>50k 且年龄<30）。
多项式交互：
生成特征的高阶项或交叉项，如 ( x_1^2 )、( x_1 \times x_2 )（用于捕捉非线性关系）。

适用场景：
当特征间存在协同影响时（如“广告投放量”和“用户活跃度”共同决定转化率），交互特征能显著提升模型表现。
注意事项：
- 避免过度交互：过多交互特征会导致维度爆炸和过拟合（如10个特征两两交互可生成45个新特征）；
- 结合业务意义：优先构造有明确业务逻辑的交互（如“客单价×购买次数=总消费”），避免无意义组合；
- 配合特征选择：通过方差分析、树模型特征重要性等方法筛选有效交互特征。

变换类型	核心作用	典型应用场景	优缺点
数学变换	优化分布，增强线性性	右偏分布特征、与目标呈非线性关系的数据	提升模型拟合度，但可能引入噪声
分箱	离散化连续特征，简化关系	异常值多、需解释性的场景（如信用评分）	降低复杂度，但可能损失信息
交互特征	捕捉特征间协同作用	特征组合影响目标的场景（如营销转化）	挖掘深层模式，但易导致维度灾难

结合业务理解：优先基于领域知识选择变换方式（如金融领域常用分箱处理风险特征）；
迭代验证：通过交叉验证对比变换前后的模型性能（如AUC、MSE），保留有效变换；
工具实现：
- 数学变换：Python的numpy（基础运算）、scipy.stats（Box-Cox）；
- 分箱：pandas.cut（等宽）、pandas.qcut（等频）、sklearn.preprocessing.KBinsDiscretizer；
- 交互特征：sklearn.preprocessing.PolynomialFeatures（多项式交互）、自定义函数。