特征工程 -brief
特征工程
一 脑图
1特征提取
统计特征
文本类型特征(tfidf,embeeding)
模型特征 stacking 特征
2单个特征处理
归一化
哑变量
分箱
数据变换
log,指数
3 多特征处理
特征交叉
二特征工程 概念
1 特征工程很重要
2 从x 到 X‘ ,衍生(升维),筛选(将维)
3从原始特征的分布抽取统计量 拟合数据标签的分布
三特征工程过程
source -》raw data -》 ETL -》features
四项目
统计特征很重要
深度学习的特征工程不一样
五特征归一化
1 目的 消除量纲影响,使不同数据可比
常用的归一化方法
1 线性函数归一化,将数据映射到0-1
2 零均值归一化 ,正态分布 -标准差
特殊点:数据归一化 对梯度下降模型 的收敛速度影响, 对决策树不支持
六 哑变量处理
定义: 虚设变量
方法:
1类别特征编码 Eg,特征编码, one hot
2 连续变量编码 Eg ,特征离散化
七 分箱处理
1 数据分箱定义
分箱箱就是将连续变量离散化
2 好坏
易于模型和回归,模型稳定,方便存储,模型鲁棒性,核心是线性模型 拟合成 非线性模型,提高精准度
3 处理方式
无监督分箱(等距分箱,等频分箱,聚类分箱)
有监督分箱(Best -KS 分箱,卡方分箱,woe和IV,Cart树模型)
七 数据变换
定义:通过函数变化使得数据特征分布改变。
方法:
1 分布左移 log(x)
2 分布右移 x^2 ,exp(x)
3 分布中心化 -(-x-k)^n, log( x-k)
4 分布组合 x ^2 +log(x)
八 特征交叉
定义:合成特征方法,对多维特征数据集上,进行非线性拟合
Eg:权重拟合,加减乘除生成新特征
九 代码编写步骤:
1 打开 web console
2 挂载数据
3 查看数据集
4 python 编码:
import pandas as pd
import numpy as np
# 加载测试集 和训练集合
train = pd.read()
test= pd.read()
5训练效果评估
方差,均值,分为数
6 合并数据
df = concat
7 清洗数据
if titile in (类别) 替换数据
8 持续处理数据
替换数字
9人工提取特征
sum,groupby
10 离散处理
11 连续值得归一化
12 存储数据
#采样 -
1 数据采样概要
正常采样:有放回,无放回,分层采样
不平衡样本:欠采样,过采样
2 采样的概念和意义
从特定的概率分布中抽取相应样本点的过程。
3 采样的应用
1.复杂分布简化
2.不平衡样本:分布不均匀采样造成分类能力下降。
处理方法:过抽样,欠抽样
3 Bootstrap
#降维 -
一 特征降维的定义和意义
概要
特征降维 :PCA, LDA ,Random-Projection
特征选择:
1 filter(低方差,相关系数,卡法校验,互信息量)
2 wrapper(递归特征消除,序列特征选择,遗传算法)
3 Embedded(lasso, Ridge,决策树)
二.特征降维的定义和意义
定义:压缩数据,场景应用在上千维度的时候。
意义:容易使用数据
降低开销
去除噪声
减轻过拟合
获取有用的价值信息
PCA例子:主成投影,达到降维作用
三.特征选择的定义和意义
定义:从N个选择M个
意义:降维度,提升效率,降低复杂度
过程:
1生成候选特征子集
2评价特征子集的好坏
3 决定什么时候该停止
4特征子集是否有效
四 特征选择的常用方法
:最小二乘线性回归
岭回归-ridge:圆形
lasso :二维度 正方形