什么是正则化?他是如何起作用的?

正则化可以理解为规则化,规则就等同于一种限制。在损失函数中加入正则化项可以限制他们的拟合能力,正则化就是为了防止过拟合,那么什么是过拟合?

图1

假如我们要构建的模型是能够区分图中的红色与蓝色部分,看图1的三种模型对训练集的拟合状态:

第1种模型:欠拟合(underfitting),此模型不能很好的区分图中的红色与蓝色部分。

第2种模型:拟合状态刚好,虽然有个别红色部分未被区分但考虑到实际测试集中会有噪声的存在,其拟合程度就刚刚好。

第3种模型:过拟合(overfitting),此种模型对于训练集的拟合程度非常高,导致其泛化能力("泛化"指的是一个假设模型能够应用到新样本的能力)较低。而且实际测试集中会有噪声的存在,在后续的测试集中得到的准确率也不高,这也会令模型的复杂度提高,让计算复杂,并不能起到理想的作用。

我们就可以使用正则化来解决过拟合,他的大致工作原理如下:

 我们的目的是拟合图中的数据,对于第一幅图我们使用一个2次函数来拟合数据,这样看起来效果还不错,当我们使用一个高次函数来拟合数据时,像第二幅图,这样对于这个数据拟合的效果更加好,但这并不是我们想要的模型,因为它过度拟合了数据,我们可以想到这是由于高次项的出现,所以我们要对高次项的系数予以惩罚。

我们在损失函数的后面加上 1000 乘以 θ3 的平方,再加上 1000 乘以 θ4 的平方,这里的1000只是一个随机值。即

 现在我们如果要求损失函数的最小值,就得让\theta3和\theta4的值非常小,因为损失函数中加入了有关他们的两项,如果 \theta3和\theta4的值非常大的话,损失函数的值也会变得非常大,所以 \theta3和\theta4的值趋近于0. 

 也即拟合函数中的 \theta3和\theta4两项的值近似为0,所以拟合函数就趋近与2次函数,这样以来,拟合函数的拟合程度就刚刚好了。

这里我们只是有目的的对 \theta3和\theta4两项进行了惩罚,那如果不知道拟合函数中哪些系数是高次项系数哪?

我们就要对所有项的系数都进行惩罚了,也即我们在损失函数中加入一项(正则化项):

 这里并没有惩罚 \theta0,这只会造成很小的差异。  对所有项的系数都进行惩罚相比之下还是对于高次项的惩罚程度更大。

其中\lambda叫做正则化参数,\lambda越大则惩罚力度也越大,但\lambda并不是越大越好当\lambda太大时就会造成拟合函数中的参数太小以至于拟合函数就等于\theta0变成一条直线,造成欠拟合。

此外正则化还分为L1正则和L2正则,又叫L1范数和L2范数,其定义如下:

 其他有关的细节不再赘述。

参考文章地址:机器学习之正则化(Regularization) - Acjx - 博客园1. The Problem of Overfitting 1 还是来看预测房价的这个例子,我们先对该数据做线性回归,也就是左边第一张图。 如果这么做,我们可以获得拟合数据的这样一条直线,但是,实际上https://www.cnblogs.com/jianxinzhou/p/4083921.html

<think>嗯,用户想了解“正则阵”的概念,特别是在数学矩阵理论中的定义。首先,我需要明确“正则阵”对应的英文术语是什么,因为中文翻译有时候会有差异。通常,在矩阵理论中,"regular matrix"可能有多种含义,具体取决于上下文。比如,有时候“正则矩阵”可能指可逆矩阵(即非奇异矩阵),因为可逆矩阵在运算中具有类似于“正则”的性质,比如存在逆元。 接下来,我需要查阅提供的引用内容,看看是否有直接提到“正则阵”的地方。引用[2]提到了正规矩阵(正规阵),并且指出H-阵、反H-阵、正交矩阵、酉矩阵、对角矩阵都是正规矩阵。但正规矩阵和用户问的正则阵可能不同,因为正规矩阵的英文是"normal matrix",而“正则阵”可能对应不同的术语。 另外,引用[1]提到矩阵的逆矩阵,引用[3]涉及矩阵分解,引用[4]和[5]讨论正则化,但这里的“正则”是“regularization”,可能和用户的问题不同。需要进一步确认。 考虑到用户可能将“正则阵”与“正规阵”(normal matrix)混淆,或者是“可逆矩阵”(invertible matrix),或者是“正则化矩阵”(但正则化一般指regularization,属于优化中的概念)。根据常见的矩阵理论术语,“正则矩阵”有时指可逆矩阵,即非奇异矩阵,行列式不为零的矩阵。例如,在文献中,可逆矩阵也被称为正则矩阵,因为其存在逆矩阵,满足某些正则条件。 因此,回答应首先明确“正则阵”通常指可逆矩阵,即存在逆矩阵的方阵。然后解释其数学定义和性质,例如行列式非零,秩为满秩等。同时,可能需要提到正规矩阵(normal matrix)的不同定义,以避免混淆,因为引用[2]提到了正规矩阵的结构,而用户的问题可能存在术语混淆的情况。 另外,需要结合用户提供的引用内容。引用[2]提到正规矩阵的性质,但用户的问题可能与之不同,因此需要区分两者。引用[1]中的逆矩阵部分可以作为支持,说明可逆矩阵的条件,如行列式不为零,属于正则阵的定义。 在生成相关问题的时候,可以围绕可逆矩阵的性质、判断方法、应用场景,以及与正规矩阵的区别等方面提问,帮助用户深入理解。</think>### 正则矩阵的定义与数学性质 #### 定义 在矩阵理论中,**正则矩阵**(Regular Matrix)通常指**可逆矩阵**(Invertible Matrix),即存在逆矩阵的方阵。具体来说: - 设 $A$ 是 $n \times n$ 的方阵,若存在矩阵 $B$ 使得 $AB = BA = I_n$(单位矩阵),则称 $A$ 为**正则矩阵**,此时 $B$ 记为 $A^{-1}$。 #### 数学条件 1. **行列式非零**:矩阵 $A$ 可逆的充要条件是 $\det(A) \neq 0$[^1]。 2. **满秩条件**:矩阵 $A$ 的秩为 $n$(即满秩)。 3. **线性无关性**:矩阵 $A$ 的行(或列)向量组线性无关。 #### 与其他概念的关系 1. **与正规矩阵的区别**: - **正规矩阵**(Normal Matrix)定义为满足 $AA^* = A^*A$ 的矩阵($A^*$ 是共轭转置),例如酉矩阵、Hermite矩阵等[^2]。 - 正则矩阵强调可逆性,而正规矩阵强调与共轭转置的可交换性,两者无必然联系。 2. **与LU分解的联系**: 若矩阵 $A$ 可逆,则可通过高斯消元法进行LU分解,即 $A = LU$($L$ 是下三角矩阵,$U$ 是上三角矩阵)[^3]。 #### 应用场景 正则矩阵的逆矩阵在以下领域有重要作用: - 线性方程组的解:$Ax = b$ 的解为 $x = A^{-1}b$。 - 坐标变换:描述线性变换的可逆性。 - 优化问题:在正则化方法中,逆矩阵用于参数估计(如岭回归的闭式解)[^4][^5]。 ---
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值