回归和拟合、归一化和标准化

本文详细解释了回归和拟合的概念及其应用。回归用于研究变量间的依赖关系,而拟合则是寻找最佳匹配曲线的过程。此外,文章还探讨了归一化和标准化的作用及应用场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

回归和拟合:

一、回归:

研究一个随机变量Y对另一个(X)或一组(X1,X2,…,Xk)变量的相依关系的统计分析方法。

应用回归预测法时应首先确定变量之间是否存在相关关系。如果变量之间不存在相关关系,对这些变量应用回归预测法就会得出错误的结果。

二、拟合

所谓拟合是指已知某函数的若干离散函数值{f1,f2,…,fn},通过调整该函数中若干待定系数f(λ1,λ2,…,λn),使得该函数与已知点集的差别(最小二乘意义)最小.

三、帮助理解的一些观点:

1、拟合是一种数据处理的方式。简单的说就是你有一组数据,觉得这组数据和一个已知的函数(这个函数的参数未定)很相似,为了得到最能表示这组数据特征的这个函数,通过拟合这种方式(具体的数学方法很多)求得参数。
而回归是一种特定的数学方法,它可以实现数据拟合,得到函数的参数。


2、

Curve fitting is the process of constructing a curve, or mathematicalfunction, that has the best fit to a series of data points, possibly subject toconstraints. Curve fitting can involve either interpolation, where an exact fitto the data is required, or smoothing, in which a "smooth" functionis constructed that approximately fits the data. A related topic is regressionanalysis, which focuses more on questions of statistical inference such as howmuch uncertainty is present in a curve that is fit to data observed with randomerrors. Fitted curves can be used as an aid for data visualization, to infervalues of a function where no data are available, and to summarize therelationships among two or more variables. Extrapolation refers to the use of afitted curve beyond the range of the observed data, and is subject to a greaterdegree of uncertainty since it may reflect the method used to construct thecurve as much as it reflects the observed data.

它告诉我们拟合侧重于调整曲线的参数,使得与数据相符。

而回归重在研究两个变量或多个变量之间的关系。它可以用拟合的手法来研究两个变量的关系,以及出现的误差。



归一化和标准化

一、归一化:

1、把数变为(0,1)之间的小数
主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速。
2、把有量纲表达式变为无量纲表达式
归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。

3、对不同特征维度的伸缩变换的目的是使各个特征维度对目标函数的影响权重是一致的,即使得那些扁平分布的数据伸缩变换成类圆形。这也就改变了原始数据的一个分布。

好处:

(1)提高迭代求解的收敛速度

(2)提高迭代求解的精度


二、标准化

1、数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。由于信用指标体系的各个指标度量单位是不同的,为了能够将指标参与评价计算,需要对指标进行规范化处理,通过函数变换将其数值映射到某个数值区间。

2、标准化表示的是原始值与均值之间差多少个标准差,是一个相对值,所以也有去除量纲的功效。同时,它还带来两个附加的好处:均值为0,标准差为1。均值为0有什么好处?比如在去中心化的数据上做SVD分解等价于在原始数据上做PCA;机器学习中很多函数如SigmoidTanhSoftmax等都以0为中心左右分布(不一定对称)。

3、标准化是为了方便数据的下一步处理,而进行的数据缩放等变换,并不是为了方便与其他数据一同处理或比较,比如数据经过零-均值标准化后,更利于使用标准正态分布的性质,进行处理。

4、对不同特征维度的伸缩变换的目的是使得不同度量之间的特征具有可比性。同时不改变原始数据的分布。待考究。


三、其他参考

1、归一化与标准化:http://www.cnblogs.com/zhaokui/p/5112287.html

2、数据标准化/归一化normalization  http://blog.youkuaiyun.com/pipisorry/article/details/52247379

3、标准化和归一化什么区别? https://www.zhihu.com/question/20467170

4、是否需要标准化/归一化:

主要看模型是否具有伸缩不变性。

有些模型在各个维度进行不均匀伸缩后,最优解与原来不等价,例如SVM。对于这样的模型,除非本来各维数据的分布范围就比较接近,否则必须进行标准化,以免模型参数被分布范围较大或较小的数据dominate。

有些模型在各个维度进行不均匀伸缩后,最优解与原来等价,例如logisticregression。对于这样的模型,是否标准化理论上不会改变最优解。但是,由于实际求解往往使用迭代算法,如果目标函数的形状太“扁”,迭代算法可能收敛得很慢甚至不收敛。所以对于具有伸缩不变性的模型,最好也进行数据标准化。
作者:王赟 Maigo
链接:https://www.zhihu.com/question/30038463/answer/50491149
来源:知乎


### 归一化拟合的概念与实现方法 #### 什么是归一化归一化的目的是将不同特征的数据缩放到相同的尺度范围内,从而提高模型训练效率预测性能。这一步骤尤其重要,在许多机器学习算法中(如线性回归、逻辑回归、支持向量机等),因为这些算法通常依赖于输入数据的分布特性[^1]。 #### 常见的归一化方法 以下是几种常用的归一化技术及其特点: 1. **最大最小归一化(Min-Max Normalization)** 这种方法通过将原始数据映射到指定区间(通常是[0,1])来完成归一化操作。其公式为: ```python def max_min_normalization(x, min_val, max_val): normalized_x = (x - min_val) / (max_val - min_val) return normalized_x ``` 此方法的优点在于简单易懂,缺点是对异常值敏感[^3]。 2. **Z-Score标准化** Z-Score标准化是一种基于均值标准差的归一化方式,它使得处理后的数据具有零均值单位方差。具体计算过程如下: ```python import numpy as np def z_score_standardization(data): mean_value = np.mean(data) std_deviation = np.std(data) standardized_data = (data - mean_value) / std_deviation return standardized_data ``` 3. **小数定标法(Decimal Scaling)** 小数定标法通过对数值除以某个幂次的十进制数将其缩小至小于1的绝对值范围之内。这种方法适用于当数据的最大值未知的情况。 4. **Log变换** 对某些呈指数增长趋势的数据集而言,采用对数转换可以有效降低偏态程度并改善正态分布假设下的统计检验效果。 #### 实现归一化拟合的具体步骤 为了在实际应用中实施归一化拟合,可遵循以下指导原则而不必拘泥于特定顺序表述: - 首先收集待处理的数据样本集合; - 计算每列属性中的极值点位置参数或者总体描述统计量指标; - 应用选定好的规范化函数调整各维度上的测量单位差异情况; - 完成预处理之后再投入后续建模流程当中去执行进一步的任务目标达成工作; ```python from sklearn.preprocessing import StandardScaler, MinMaxScaler # 使用MinMaxScaler进行归一化 scaler = MinMaxScaler() X_normalized = scaler.fit_transform(X) # 或者使用StandardScaler进行标准化 std_scaler = StandardScaler() X_standardized = std_scaler.fit_transform(X) ``` 以上代码片段展示了如何利用`sklearn`库快速完成两种主流类型的归一化/标准化操作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值