数据特征 归一化/标准化 方法

归一化与标准化详解
本文深入解析归一化和标准化的概念,阐述其在加速梯度下降、提升模型精度及特定算法应用中的重要性,并提供sklearn库实现的示例。

归一化/标准化 定义

  • 归一化:就是将训练集中数值特征的值缩放到0和1之间。公式如下
    在这里插入图片描述
  • 标准化:就是将训练集中数值特征的值缩放成均值为0,方差为1的状态。公式如下
    需要先计算出均值和标准差,下面是标准差的计算公式
    在这里插入图片描述
    μ表示均值,x*表示标准化的表达式
    在这里插入图片描述

优点

  • 加快了梯度下降求最优解的速度。

例子如下,左图代表没处理过的数据,最优解的求值可能会比较缓慢,例子如下,左图代表没处理过的数据,最优解的求值可能会比较缓慢,而右图是归一化后的,明显收敛速度更快。
在这里插入图片描述

  • 提升模型精度

例如,在KNN类算法中。我们需要计算每个点与分类点之间的距离,当我们没有进行归一化操作的时候,取值范围大的特征占据主导因素,导致其他特征的影响极小,这样会影响到最后的结果。

什么情况下必须进行标准化/归一化?

  • 当你的损失函数,有L1或者L2惩罚项时,必须使用标准化/归一化,因为不用正则时,我们的损失函数只是仅仅在度量预测与真实的差距,加上正则后,我们的损失函数除了要度量上面的差距外,还要度量参数值是否足够小。而参数值的大小程度或者说大小的级别是与特征的数值范围相关的。
  • Kmeans,KNN一些涉及到距离有关的算法,或者聚类的话,都是需要先做变量标准化的。
  • 调用SVM的RBF内核和PCA算法

怎么进行标准化/归一化?

这里我们引用sklearn中自带的数据,来进行操作
导入数据

from sklearn.datasets import load_iris
iris = load_iris()
iris.data

标准化

from sklearn.preprocessing import StandardScaler
StandardScaler().fit_transform(iris.data)

归一化

from sklearn.preprocessing import MinMaxScaler
MinMaxScaler().fit_transform(iris.data)

另外,我们要先拆分出test集,不要在整个数据集上做标准化,因为那样会将test集的信息引入到训练集中,这是一个非常容易犯的错误!

<think> 嗯,用户询问的是影像组学特征筛选应该在归一化标准化之前还是之后进行。我需要结合用户提供的引用资料来梳理这个问题。 引用[1]和[3]都明确指出影像组学研究中存在两处归一化操作:一处是在图像预处理阶段,另一处是在特征提取之后[^1][^3]。引用[2]则描述了影像组学研究的标准流程,其中包括影像获取、ROI分割、特征提取、特征选择等步骤[^2]。这个流程顺序很关键。 从流程上看,特征提取后的归一化/标准化应该放在特征选择之前。引用[4]展示了特征归一化的具体代码实现,这个操作显然是作用于已提取的特征数据上的[^4]。在特征选择前进行归一化处理非常重要,因为特征选择算法(如方差过滤、相关系数法等)对特征的尺度变化很敏感。如果某些特征的数值范围很大(比如达到百万级别),而其他特征范围很小(比如0到1之间),那么数值范围大的特征就会在方差计算中占据更大权重,导致选择结果出现偏差。 另外,特征降维方法如主成分分析(PCA)也依赖于特征的尺度。如果不对特征进行标准化处理,量级大的特征会主导主成分的方向,影响降维效果。引用中提到的高质量影像数据获取和ROI分割阶段进行的图像归一化属于预处理操作,主要用于消除扫描设备差异带来的影响,这与特征提取后的归一化操作目的不同。 因此综合来看,特征筛选前的归一化/标准化是必不可少的步骤。只有在特征尺度统一的基础上,特征选择的结果才是可靠且可解释的。 </think> 在影像组学流程中,**特征筛选应在数据归一化/标准化之后进行**。核心原因和流程依据如下: --- ### 关键流程顺序 根据引用[2]的标准化流程框架[^2]: $$ \text{影像获取} \rightarrow \text{ROI分割} \rightarrow \text{特征提取} \rightarrow \text{特征标准化} \rightarrow \text{特征筛选} \rightarrow \text{模型构建} $$ **特征筛选**需在**特征标准化/归一化之后**执行,原因如下: --- ### 必要性分析 1. **消除量纲影响** - 影像组学特征(如纹理、形状)的数值范围差异巨大(例如:灰度共生矩阵特征 vs 一阶统计量)。引用[1][^3]强调:未经标准化特征会使方差大的特征主导模型(如SVM、PCA)。 - 示例:若特征A范围$[0,1]$,特征B范围$[0,10^6]$,筛选算法(如相关系数法)会偏向特征B。 2. **保障特征可比性** - 特征选择方法(如方差过滤、Lasso回归)依赖特征的绝对值大小。引用[3]指出:归一化确保所有特征处于同一量级(如$[0,1]$),避免算法错误评估重要性[^3]。 3. **与图像预处理归一化的区别** - **图像级归一化**(引用[1][^3][^4]):在特征提取前进行,用于消除扫描设备差异(如CT值偏移),属于图像预处理[^1][^4]。 - **特征标准化**(引用[2]流程⑥前):在特征提取后进行,服务于后续统计分析与模型构建[^2]。 --- ### 标准化方法选择 | **方法** | **适用场景** | **示例特征** | |----------------|----------------------------------|---------------------------| | **Z-score** | 特征分布接近正态分布 | 一阶统计量(均值、标准差) | | **Min-Max** | 需限定特征范围(如神经网络输入) | 纹理特征矩阵 | | **Robust Scaling** | 存在离群值 | 形状特征(易受分割影响) | > 注:引用[4]的线性拉伸法属于Min-Max归一化,适用于多波段影像[^4]。 --- ### 误区澄清 - **错误流程**:特征提取 → 特征筛选 → 归一化 **问题**:筛选时因量纲差异误删重要特征(如小数值纹理特征被过滤)。 - **正确流程**:特征提取 → 归一化/标准化特征筛选 → 建模 --- ### 引用总结 > "特征的一致性评价"(引用[2]流程⑤)需在标准化后进行[^2];pyradiomics等工具的特征归一化(引用[3])明确在特征提取后启用[^3]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值