特征工程

最新推荐文章于 2025-07-10 16:46:31 发布

jacobwe

最新推荐文章于 2025-07-10 16:46:31 发布

阅读量223

点赞数

CC 4.0 BY-SA版权

分类专栏：数据挖掘文章标签：机器学习数据分析

本文链接：https://blog.youkuaiyun.com/jacobwe/article/details/105047047

数据挖掘专栏收录该内容

9 篇文章

订阅专栏

本文深入探讨特征工程的核心概念，包括特征提取、处理和选择的方法。覆盖统计特征、文本特征、模型特征，以及特征归一化、哑变量、分箱、数据变换等技术。解析特征工程在深度学习和传统模型中的应用差异，强调其对模型性能的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

特征工程 -brief

特征工程
一脑图
1特征提取
统计特征
文本类型特征（tfidf,embeeding）
模型特征 stacking 特征
2单个特征处理
归一化
哑变量
分箱
数据变换
log，指数

3 多特征处理
特征交叉

二特征工程概念
1 特征工程很重要
2 从x 到 X‘ ，衍生（升维），筛选（将维）
3从原始特征的分布抽取统计量拟合数据标签的分布

三特征工程过程
source -》raw data -》 ETL -》features

四项目
统计特征很重要
深度学习的特征工程不一样

五特征归一化
1 目的消除量纲影响，使不同数据可比
常用的归一化方法
1 线性函数归一化，将数据映射到0-1
2 零均值归一化，正态分布 -标准差
特殊点：数据归一化对梯度下降模型的收敛速度影响，对决策树不支持
六哑变量处理
定义：虚设变量
方法：
1类别特征编码 Eg，特征编码， one hot
2 连续变量编码 Eg ，特征离散化
七分箱处理
1 数据分箱定义
分箱箱就是将连续变量离散化
2 好坏
易于模型和回归，模型稳定，方便存储，模型鲁棒性，核心是线性模型拟合成非线性模型，提高精准度
3 处理方式
无监督分箱（等距分箱，等频分箱，聚类分箱）
有监督分箱（Best -KS 分箱，卡方分箱，woe和IV，Cart树模型）
七数据变换
定义：通过函数变化使得数据特征分布改变。
方法：
1 分布左移 log（x）
2 分布右移 x^2 ,exp(x)
3 分布中心化 -(-x-k)^n, log( x-k)
4 分布组合 x ^2 +log(x)
八特征交叉
定义：合成特征方法，对多维特征数据集上，进行非线性拟合
Eg：权重拟合，加减乘除生成新特征

九代码编写步骤：
1 打开 web console
2 挂载数据
3 查看数据集
　4 python 编码：
　 import pandas as pd
　import numpy as np
　　# 加载测试集和训练集合
　　train = pd.read()
　　test= pd.read()

5训练效果评估
　方差，均值，分为数
　6 合并数据
　　df = concat
　7 清洗数据
　　if titile in (类别) 替换数据
　8 持续处理数据
　　替换数字
　9人工提取特征
　 sum，groupby
　10 离散处理
　11 连续值得归一化
　12 存储数据

#采样 -
1 数据采样概要
正常采样：有放回，无放回，分层采样
不平衡样本：欠采样，过采样
2 采样的概念和意义
从特定的概率分布中抽取相应样本点的过程。
3 采样的应用
1.复杂分布简化
2.不平衡样本：分布不均匀采样造成分类能力下降。
处理方法：过抽样，欠抽样
3 Bootstrap

#降维 -
一特征降维的定义和意义
概要
　　特征降维：PCA, LDA ,Random-Projection
特征选择：
　　　1 filter(低方差,相关系数，卡法校验，互信息量）
　　　2 wrapper(递归特征消除，序列特征选择，遗传算法)
3 Embedded(lasso, Ridge,决策树)
二.特征降维的定义和意义
　　定义：压缩数据，场景应用在上千维度的时候。
　　意义：容易使用数据
　　　　　降低开销
　　　　　去除噪声
　　　　　减轻过拟合
　　　　　获取有用的价值信息
　　PCA例子：主成投影，达到降维作用
三.特征选择的定义和意义
　　　定义：从N个选择M个
　　　意义：降维度，提升效率，降低复杂度
　　　过程：
　　　　1生成候选特征子集
　　　　2评价特征子集的好坏
　　　　3 决定什么时候该停止
　　　　4特征子集是否有效
四特征选择的常用方法
：最小二乘线性回归
　　　岭回归-ridge：圆形
　　　lasso :二维度正方形