归一化和标准化小解

人在旅途我渐行渐远

于 2024-10-16 13:31:09 发布

阅读量727

点赞数 7

分类专栏： AI 文章标签：数据预处理

本文链接：https://blog.youkuaiyun.com/jun_1990/article/details/142979570

版权

AI 专栏收录该内容

30 篇文章

订阅专栏

归一化和标准化是两种常见的数据预处理技术，它们在机器学习、深度学习和数据分析等领域中被广泛应用。以下是两者的区别：

一、定义与目的

归一化（Normalization）
- 定义：将数据按比例缩放，使之落入一个小的特定区间，如[0, 1]或[-1, 1]。
- 目的：消除不同特征之间的尺度差异，使得模型更容易训练。
标准化（Standardization）
- 定义：将数据转换为均值为0、标准差为1的分布。
- 目的：消除数据的尺度差异，使数据具有相同的规模和量纲，便于后续处理和分析。同时，对于许多机器学习算法来说，标准化后的数据表现更好。

二、应用场景

归一化
- 常用于图像处理中，因为像素值通常在一个有限的范围内（如0-255）。
- 在某些情况下，如梯度下降等优化算法中，归一化可以加快模型的收敛速度。
标准化
- 更广泛地应用于各种类型的数据，特别是当数据存在明显的偏态分布时。
- 在许多机器学习算法中，如线性回归、逻辑回归、支持向量机等，标准化后的数据往往能提高模型的性能。

三、计算方式

归一化
- 常见的归一化方法包括最小-最大归一化，即将数据映射到[0, 1]区间内，公式为(x - min) / (max - min)。
- 另一种归一化方法是将数据映射到[-1, 1]区间内，这通常需要对数据进行额外的处理。
标准化
- 标准化通常使用Z-score标准化方法，即将数据转换为均值为0、标准差为1的正态分布，公式为(x - μ) / σ。
- 其中，μ是数据的均值，σ是数据的标准差。

四、对异常值的影响

归一化
- 对异常值（outliers）更敏感，因为异常值会极大地影响最小值和最大值的计算。
- 如果数据中存在异常值，归一化后的数据可能会变得不稳定或难以解释。
标准化
- 通过计算均值和标准差来消除异常值的影响。
- 即使数据中存在异常值，标准化后的数据仍然能够保持相对稳定的分布特性。

五、实例应用

在PyTorch中，我们可以使用torchvision.transforms模块来方便地对图像数据进行归一化和标准化。例如：

import torch
import torchvision.transforms as transforms
from PIL import Image

# 加载图像
image = Image.open('example.jpg')

# 归一化
normalized_tensor = transforms.ToTensor()(image)

# 标准化（以ImageNet数据集的RGB通道均值和标准差为例）
mean = [0.485, 0.456, 0.406]  # ImageNet数据集的RGB通道均值
std = [0.229, 0.224, 0.225]   # ImageNet数据集的RGB通道标准差
standardize = transforms.Normalize(mean=mean, std=std)
standardized_tensor = standardize(transforms.ToTensor()(image))