特征工程

本文深入探讨特征工程的核心概念,包括特征提取、处理和选择的方法。覆盖统计特征、文本特征、模型特征,以及特征归一化、哑变量、分箱、数据变换等技术。解析特征工程在深度学习和传统模型中的应用差异,强调其对模型性能的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

特征工程 -brief

特征工程
一 脑图
1特征提取
统计特征
文本类型特征(tfidf,embeeding)
模型特征 stacking 特征
2单个特征处理
归一化
哑变量
分箱
数据变换
log,指数

3 多特征处理
特征交叉

二特征工程 概念
1 特征工程很重要
2 从x 到 X‘ ,衍生(升维),筛选(将维)
3从原始特征的分布抽取统计量 拟合数据标签的分布

三特征工程过程
source -》raw data -》 ETL -》features

四项目
统计特征很重要
深度学习的特征工程不一样

五特征归一化
1 目的 消除量纲影响,使不同数据可比
常用的归一化方法
1 线性函数归一化,将数据映射到0-1
2 零均值归一化 ,正态分布 -标准差
特殊点:数据归一化 对梯度下降模型 的收敛速度影响, 对决策树不支持
六 哑变量处理
定义: 虚设变量
方法:
1类别特征编码 Eg,特征编码, one hot
2 连续变量编码 Eg ,特征离散化
七 分箱处理
1 数据分箱定义
分箱箱就是将连续变量离散化
2 好坏
易于模型和回归,模型稳定,方便存储,模型鲁棒性,核心是线性模型 拟合成 非线性模型,提高精准度
3 处理方式
无监督分箱(等距分箱,等频分箱,聚类分箱)
有监督分箱(Best -KS 分箱,卡方分箱,woe和IV,Cart树模型)
七 数据变换
定义:通过函数变化使得数据特征分布改变。
方法:
1 分布左移 log(x)
2 分布右移 x^2 ,exp(x)
3 分布中心化 -(-x-k)^n, log( x-k)
4 分布组合 x ^2 +log(x)
八 特征交叉
定义:合成特征方法,对多维特征数据集上,进行非线性拟合
Eg:权重拟合,加减乘除生成新特征

九 代码编写步骤:
1 打开 web console
2 挂载数据
3 查看数据集
 4 python 编码:
  import pandas as pd
 import numpy as np
  # 加载测试集 和训练集合
  train = pd.read()
  test= pd.read()

5训练效果评估
 方差,均值,分为数
 6 合并数据
  df = concat
 7 清洗数据
  if titile in (类别) 替换数据
 8 持续处理数据
  替换数字
 9人工提取特征
  sum,groupby
 10 离散处理
 11 连续值得归一化
 12 存储数据

#采样 -
1 数据采样概要
正常采样:有放回,无放回,分层采样
不平衡样本:欠采样,过采样
2 采样的概念和意义
从特定的概率分布中抽取相应样本点的过程。
3 采样的应用
1.复杂分布简化
2.不平衡样本:分布不均匀采样造成分类能力下降。
处理方法:过抽样,欠抽样
3 Bootstrap

#降维 -
一 特征降维的定义和意义
概要
  特征降维 :PCA, LDA ,Random-Projection
特征选择:
   1 filter(低方差,相关系数,卡法校验,互信息量)
   2 wrapper(递归特征消除,序列特征选择,遗传算法)
3 Embedded(lasso, Ridge,决策树)
二.特征降维的定义和意义
  定义:压缩数据,场景应用在上千维度的时候。
  意义:容易使用数据
     降低开销
     去除噪声
     减轻过拟合
     获取有用的价值信息
  PCA例子:主成投影,达到降维作用
三.特征选择的定义和意义
   定义:从N个选择M个
   意义:降维度,提升效率,降低复杂度
   过程:
    1生成候选特征子集
    2评价特征子集的好坏
    3 决定什么时候该停止
    4特征子集是否有效
四 特征选择的常用方法
:最小二乘线性回归
   岭回归-ridge:圆形
   lasso :二维度 正方形

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值