
数据预处理与特征工程
文章平均质量分 81
本专栏介绍数据预处理与特征工程的手段,后续会继续补充
哎呦-_-不错
读书太少而想太多
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据预处理与特征工程—12.常见的数据预处理与特征工程手段总结
文章目录引言1.数据预处理1.1 数据清洗1.1.1 异常值处理1.1.2 缺失值处理1.2 特征预处理1.2.1 数值型特征无量纲化1.2.1 连续数值型特征分箱1.2.1.1 无监督分箱法1.2.1.2 有监督分箱法引言 数据预处理与特征工程包括Data PreProcessing(数据预处理)、Feature Extraction(特征提取)、Feature Selection(特征选择)和Feature construction(特征构造)等步骤1.数据预处理 数据预处理又包括数据清洗与原创 2021-05-08 19:30:33 · 2560 阅读 · 1 评论 -
数据预处理与特征工程—11.分层采样
分层采样的目的是为了防止数据有偏自定义分层采样函数def split_train_test(data, test_size=0.2): """ 保证训练集与测试集的类别比例与原数据集中的相等 :param data: 原数据 :param test_size: 测试集比例 :return: 训练集与测试集 """ label = set(data.iloc[:, -1]) data_tr = pd.DataFrame() dat原创 2021-04-14 15:30:39 · 940 阅读 · 0 评论 -
数据预处理与特征工程—10.图像切割与特征提取
文章目录引言一、图像切割二、特征提取1.各阶颜色矩的计算公式三、python实现水质图像数据—百度网盘链接提取码:1234 引言 本文以水质图像为例,进行图像切割与特征提取一、图像切割 一般情况下,采集到的水样图片包含盛水容器,且容器颜色与水体颜色差异较大,同时水体位于图片中央,所以为了提取水色特征,就需要提取水样图片中央部分具有代表意义的图像,具体实施方式是提取水样图像中央101×101像素的图像。设原始图像的大小是M×N,则截取宽从第M/2 -50个像素点到第M/2+50个像素点,高从原创 2021-04-08 16:35:17 · 3721 阅读 · 3 评论 -
数据预处理与特征工程—9.Lasso算法实现特征选择
文章目录引言实战引言 为什么Lasso算法可以用于特征选择呢?因为Lasso算法可以使特征的系数进行压缩并且可以使某些回归系数为0,即不选用该特征,因此可以进行特征选择。而与它同为线性回归正则化方法的Ridge回归只能使某些回归系数接近于0,起不到特征选择的作用。 Lasso回归方法的优点是可以弥补最小二乘法和逐步回归局部最优估计的不足,可以很好的进行特征选择,可以有效的解决各特征之间存在的多重共线性问题。缺点是如果存在一组高度相关的特征时,Lasso回归倾向于选择其中一个特征,而忽视其他所有特征原创 2021-04-03 17:39:50 · 9753 阅读 · 5 评论 -
数据预处理—8.属性归约之主成分分析(理论及python实现)
文章目录1.主成分分析介绍2.主成分分析计算步骤3.PCA常用参数介绍4.PCA实战1.主成分分析介绍 主成分分析是一种用于连续属性的数据降维方法,它构造了原始数据的一个正交变换,新空间的基底去除了原始空间基底下数据的相关性,只需使用少量新变量就能够解释原始数据中大部分的变异。在应用中,通常是选出比原始变量个数少,能解释大部分数据中的变量的几个新变量来代替原始变量建模。2.主成分分析计算步骤3.PCA常用参数介绍from sklearn.decomposition import PCA原创 2021-03-31 11:39:22 · 1068 阅读 · 0 评论 -
数据预处理—7.数据插补之拉格朗日插值法、牛顿差值法及python实现
文章目录1.拉格朗日差值法2.牛顿差值法数据链接,密码为12341.拉格朗日差值法 python中的scipy库提供了拉格朗日差值法的函数,直接调用案例%matplotlib inlineimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom scipy.interpolate import lagrange # 拉格朗日函数cat_sale = pd.read_excel('da原创 2021-03-30 19:05:38 · 3260 阅读 · 5 评论 -
数据预处理与特征工程—6.Kaggle房价预测中数据预处理与特征工程
文章目录引言一、数据预处理1.数据集的基本信息2.缺失值统计及可视化3.变量分析3.1目标变量的分析3.2分析目标变量与类别型变量的关系3.3 分析目标变量与连续型变量的关系3.4数据变换3.4.1目标变量3.4.2 连续变量采用box-cox变换3.5线性与多重共线性分析4.填充缺失值二、特征工程1.特征组合2.增加特征3.特征选择4.编码引言 以Kaggle房价回归预测为例,来叙述回归问题中数据预处理与特征工程的一般流程,这是参考公开notebook的,觉得人家写的很条理,不像自己的都拼西凑。刚买原创 2021-03-26 16:09:15 · 1238 阅读 · 0 评论 -
数据预处理—5.box-cox变换及python实现
文章目录1.box-cox变换是什么?2.python实现接上一篇:特征工程—4.为什么要趋近于正态分布?详解1.box-cox变换是什么? Box-Cox变换是Box和Cox在1964年提出的一种广义幂变换方法,是统计建模中常用的一种数据变换,用于连续的响应变量不满足正态分布的情况。Box-Cox变换之后,可以一定程度上减小不可观测的误差和预测变量的相关性。Box-Cox变换的主要特点是引入一个参数,通过数据本身估计该参数进而确定应采取的数据变换形式,Box-Cox变换可以明显地改善数据原创 2021-03-25 16:55:54 · 9708 阅读 · 3 评论 -
数据预处理—4.为什么要趋近于正态分布?详解
文章目录1.为什么变量分布要呈现正态分布?2.判断数据是否服从正态分布的指标:偏态与峰度3.如何调整原始分布趋于正态分布?正态性当谈论正态性时,即数据应该看起来像正态分布。这很重要,因为几个统计检验都依赖于此(例如t统计)。单变量正态性虽然不能确保多变量正态性(这是我们想要的),但它有帮助。在大样本数据中,如果我们解决正态性,我们就避免了很多其他问题(例如异方差),所以这就是我们进行这种分析的主要原因。同方差同方差性是指“假设因变量在预测变量范围内的方差水平相等。同方差是可取的,因为我们希望误差项原创 2021-03-23 16:28:10 · 15617 阅读 · 2 评论 -
数据预处理—3.变量选择之逐步挑选—向前挑选、向后挑选、双向挑选python实现
文章目录引言1.最优子集法2.向前逐步选择3.向后逐步选择4.双向挑选引言 逐步挑选法是基于最优子集法上的改进。逐步挑选法分为向前挑选、向后挑选、双向挑选。其中最常用的是双向挑选,能够兼顾模型复杂度与模型精度的要求。逐步回归法计算量大,python中也没有现成的包调用,使用的不多。常用到的指标有AIC,BIC,R2R^2R2,在python中没有找到直接计算AIC,BIC的包,自定义也很复杂,这里使用R2R^2R21.最优子集法(i) 记不含任何特征的模型为 ????0 ,计算这个 ????0 的原创 2021-03-16 11:12:22 · 10174 阅读 · 7 评论 -
数据预处理—2.为什么Lasso回归可以做特征选择(变量挑选)而岭回归做不到呢?
文章目录1.问题解答1.问题解答 Lasso回归与岭回归都是对线性回归进行正则化。线性回归的损失函数为:RSS=J(w)=∑i=1N(yi−w0−∑j=1pwjxij)2RSS=J(w) = \sum\limits_{i=1}^{N}(y_i-w_0-\sum\limits_{j=1}^{p}w_jx_{ij})^2RSS=J(w)=i=1∑N(yi−w0−j=1∑pwjxij)2岭回归的损失函数为:J(w)=∑i=1N(yi−w0−∑j=1pwjxij)2+λ∑j=1pwj2=R原创 2021-03-15 22:19:15 · 3420 阅读 · 2 评论 -
数据预处理与特征工程—1.不均衡样本集采样—SMOTE算法与ADASYN算法
文章目录一、第一种思路:平衡采样1.SMOTE算法二、第二种思路:使用新的指标 在训练二分类模型中,例如医疗诊断、网络入侵检测、信用卡反欺诈等,经常会遇到正负样本不均衡的问题。直接采用正负样本非常不均衡的数据集进行训练学习会遇到很多问题。使用不平衡数据集的挑战在于,大多数机器学习技术将忽略少数类,并且反过来在少数类上表现不佳,尽管通常最重要的是少数类(比如申请卡中的逾期)。比如:正负样本比例是99:1,那么分类器将所有样本都预测成正样本就有99%的正确率当碰到样本类别不均衡的情况下,占比大的类别原创 2021-03-13 16:03:22 · 9090 阅读 · 4 评论