向量范数
在G.H.Golub和C.F.Van_Loan所著的《矩阵计算》一书中,对向量范数的定义如下:
正则化
在机器学习中,正则化主要用于解决在训练模型的过程中出现的过拟合问题。常见的正则化方法有两种,即L1正则化和L2正则化。其中L1正则化除了可以抑制过拟合现象,还兼有特征选择和增加模型可解释性的作用;L2正则化除了可以抑制过拟合现象,在某些情况下还同时有助于后续的优化计算。L1正则化和L2正则化又被称为L1范数和L2范数,虽然L1范数和L2范数与向量范数中的1范数和2范数类似,但并不完全相同。下面分别对L1正则化和L2正则化进行简单介绍:
L1正则化:
其中,C0代表原始的代价函数,后面那一项就是L1正则化项,它表示权重向量中所有元素绝对值的和除以训练集的样本大小,然后乘以正则项系数λ。λ被称为超参(hyper-parameter),用于平衡模型在训练集上和测试集上的适用性,但一个合适的λ值需要手动调整。关于L1正则化兼有特征选择和增加模型的可解释性的作用,及L2正则化有助于后续的优化计算这两方面的具体内容,可以参考这两篇博文: