正则化参数估计

正则化参数λ\lambdaλ在径向基函数网络,最小二乘估计和支持向量机的正则化理论中起着核心作用,因此需要一个估计λ\lambdaλ的相当原理性的方法。
先考虑一个非线性回归问题:
(式1)di=f(xi)+εi,i=1,2,...,Nd_i = f(x_i)+\varepsilon _i,i=1,2,...,N \tag{式1}di=f(xi)+εi,i=1,2,...,N(1)
此处f(xi)f(x_i)f(xi)是一条"光滑的曲线",εi\varepsilon _iεi是一个均值为零和方差如下的白噪声过程的采样,即
(式2)E[εi,εk]={σ2,若k=i0,否则E[\varepsilon _i,\varepsilon _k] = \begin{cases} \sigma ^2, & \text {若k=i} \\ 0, & \text{否则} \end{cases} \tag{式2}E[εi,εk]={σ2,0,k=i否则(2)
给定一组训练样本{xi,yi}i=1N\lbrace x_i,y_i \rbrace _{i=1} ^N{xiyi}i=1N,重建该模型的固有函数f(xi)f(x_i)f(xi)
Fλ(X)F_{\lambda}(X)Fλ(X)为f(x)相对于某个正则化参数λ\lambdaλ的正则化估计,即Fλ(X)F_{\lambda}(X)Fλ(X)为使表示非线性回归问题的Tikhonov泛函达到最小的最小化函数。
在这里插入图片描述
(式3)\tag{式3}(3)
选择合适的λ\lambdaλ,由下述两条件加以权衡
(1)由∣∣DF(X)∣∣2||DF(X)||^2DF(X)2项来度量解的粗糙度;
(2)由∑i=1N[di−F(xi)]2\sum_{i=1}^N[d_i - F(x_i)]^2i=1N[diF(xi)]2项来度量数据的失真度。

均方误差

R(λ)R(\lambda)R(λ)表示模型的回归函数f(x)f(x)f(x)和表示在正则化参数λ\lambdaλ某一值下的解的逼近函数Fλ(x)F_{\lambda}(x)Fλ(x)之间在整个给定集合上的均方误差,即:
(式4)R(λ)=1N∑i=1N[f(xi)−Fλ(xi)]2R(\lambda) = \frac{1}{N} \sum _{i=1} ^N[f(x_i) - F_{\lambda}(x_i)]^2 \tag{式4}R(λ)=N1i=1N[f(xi)Fλ(xi)]2(4)
所谓最佳λ\lambdaλ指的是使R(λ)R(\lambda)R(λ)取最小的值;
Fλ(xk)F_{\lambda} (x_k)Fλ(xk)表示为给定的一组可观察值的线性组合:
(式5)Fλ=∑i=1Naki(λ)diF_{\lambda} = \sum _{i=1} ^N a_{ki}(\lambda)d_i \tag{式5}Fλ=i=1Naki(λ)di(5)
用等价的矩阵形式写成:
(式6)Fλ=A(λ)dF_{\lambda} = A(\lambda)d \tag{式6}Fλ=A(λ)d(6)
其中ddd是预期响应向量,
(式7)Fλ=[Fλ(x1),Fλ(x2),...,,Fλ(xN)]TF_{\lambda} = [F_{\lambda}(x_1),F_{\lambda}(x_2),...,,F_{\lambda}(x_N)]^T \tag{式7}Fλ=[Fλ(x1),Fλ(x2),...,,Fλ(xN)]T(7)

在这里插入图片描述(式8) \tag{式8}(8)
其中N x N矩阵A(λ)A(\lambda)A(λ)称为影响矩阵。
用上述矩阵符号,可以R(λ)R(\lambda)R(λ)重新写成:
(式9)R(λ)=1N∣∣f−Fλ∣∣2=1N∣∣f−A(λ)d∣∣2R(\lambda) = \frac{1}{N} ||f - F_{\lambda}||^2 = \frac{1}{N} ||f - A({\lambda})d||^2 \tag{式9}R(λ)=N1fFλ2=N1fA(λ)d2(9)
其中向量N x 1的向量fff为:
f=[f(x1),f(x2),...,f(xN)]Tf = [f(x_1),f(x_2),...,f(x_N)]^Tf=[f(x1),f(x2),...,f(xN)]T
也可写成
d=f+εd = f + \varepsilond=f+ε
其中:
(式10)ε=[ε1,ε2,....,εN]T \varepsilon = [ \varepsilon _1, \varepsilon _2,...., \varepsilon _N]^T \tag{式10}ε=[ε1,ε2,....,εN]T(10)
整理可得:
在这里插入图片描述(式11)\tag{式11}(11)
其中I是N x N的单位矩阵,求R(λ)R(\lambda)R(λ)的期望值,需要注意:
(1)式(11)的右边第一项是一个常数,因此它不受期望算子的影响;
(2)第二项的期望为零;
(3)标量∣∣A(λ)∣∣2||A(\lambda)||^2A(λ)2的期望为:
在这里插入图片描述(式12)\tag{式12}(12)
(4)利用矩阵代数中如下规则:给定两个具有相容维数的矩阵B和C,BC的迹等于CB的迹,
B=εTB =\varepsilon ^{T}B=εT, C=AT(λ)A(λ)εC = A^T(\lambda)A(\lambda) \varepsilonC=AT(λ)A(λ)ε则式12可以写成:
(式13)E[∣∣A(λ)f∣∣2]=E[tr[AT(λ)A(λ)εεT]]=σ2tr(A2(λ))E[||A(\lambda) f||^2] = E[tr[ A^T(\lambda)A(\lambda) \varepsilon \varepsilon^T ]]=\sigma ^2 tr(A^2(\lambda))\tag{式13}E[A(λ)f2]=E[tr[AT(λ)A(λ)εεT]]=σ2tr(A2(λ))(13)
上式最后一行根据(式2)可得,其中AT(λ)A(λ)A^T(\lambda)A(\lambda)AT(λ)A(λ)的迹等于A2(λ)A^2(\lambda)A2(λ)的迹。
将三项结果结合起来,R(λ)R(\lambda)R(λ)期望值可表示为:
(式14)E[R(λ)]=1N∣∣f−A(λ)f∣∣2+σ2Ntr[A2(λ)]E[R(\lambda)] = \frac{1}{N} ||f - A(\lambda) f||^2 + \frac{\sigma ^2}{N} tr[A^2(\lambda)]\tag{式14}E[R(λ)]=N1fA(λ)f2+Nσ2tr[A2(λ)](14)
但是,一个给定数据集的均方误差R(λ)R(\lambda)R(λ)在实际中并不好用,因其需要回归函数f(x)f(x)f(x)的知识,它是一个有待重建的函数,因此定义如下作为R(λ)R(\lambda)R(λ)的估计:
(式15)R^(λ)=1N∣∣I−A(λ)d∣∣2+σ2Ntr[A2(λ)]−σ2Ntr[(I−A(λ))2]\hat{R}(\lambda) = \frac{1}{N}||I - A(\lambda)d||^2 + \frac{\sigma ^2}{N}tr[A^2(\lambda)] - \frac{\sigma ^2}{N}tr[(I - A(\lambda))^2]\tag{式15}R^(λ)=N1IA(λ)d2+Nσ2tr[A2(λ)]Nσ2tr[(IA(λ))2](15)
(式16)E[R^(λ)]=E(R(λ)) E[\hat{R}(\lambda)] =E(R(\lambda)) \tag{式16}E[R^(λ)]=E(R(λ))(16)


因此使得估计R^(λ)\hat{R}(\lambda)R^(λ)最小的λ\lambdaλ值可以作为正则化参数λ\lambdaλ一个好的选择,即使得其模型均方误差最小。

但是从(式15)可以看出需要估计R^(λ)\hat{R}(\lambda)R^(λ)还需要知道噪声方差σ2\sigma ^2σ2,而实际情况中,它通常是未知的。为处理该情况,引入广义交叉验证


广义交叉验证

Fi[k](x)F_i ^{[k]}(x)Fi[k](x)为使泛函数最小化的函数:
(式17)ξmodified(F)=12∑i=1N[di−Fλ(xi)]2+λ2∣∣DF(x)∣∣2\xi _{modified}(F) = \frac{1}{2} \sum_ {i=1} ^N[d_i - F_{\lambda}(x_i)]^2 +\frac{\lambda}{2}||DF(x)||^2 \tag{式17}ξmodified(F)=21i=1N[diFλ(xi)]2+2λDF(x)2(17)
其中标准误差项中省略了第kkk[dk−Fλ(xk)][d_k - F_{\lambda}(x_k)][dkFλ(xk)],将用该项预报缺省数据点dkd_kdk的能力来衡量参数λ\lambdaλ的好坏。因此,引入性能度量:
(式18)V0(λ)=1N∑k=1N[dk−Fλ[k](xk)]2V_0(\lambda) = \frac{1}{N}\sum _{k=1} ^N [d_k - F_{\lambda} ^{[k]}(x_k)]^2 \tag{式18}V0(λ)=N1k=1N[dkFλ[k](xk)]2(18)
V0(λ)V_0(\lambda)V0(λ)仅依赖数据点本身,这样 λ\lambdaλ 的普通交叉验证估计即为 V0(λ)V_0(\lambda)V0(λ)最小化的函数。
Fλ[k](xk)]F_{\lambda} ^{[k]}(x_k)]Fλ[k](xk)] 一个有用的性质是:
如果用预测Fλ[k](xk)F_{\lambda} ^{[k]}(x_k)Fλ[k](xk) 来代替数据点dkd_kdk的值,使用数据点d1,d2,...,dk−1,dk,...dNd_1,d_2,...,d_{k-1},d_k,...d_Nd1d2,...,dk1,dk,...dN使式3的泛函数最小,则Fλ[k](xk)F_{\lambda} ^{[k]}(x_k)Fλ[k](xk) 就是所求的解,对于每一个输入向量xxx,该性质使得ξ(F)\xi(F)ξ(F)的最小化函数Fλ(x)F_{\lambda} (x)Fλ(x)线性依赖于dkd_kdk,这使得有:
(式19)Fλ[k](xk)=Fλ(xk)+(Fλ[k](xk)−dk)∂Fλ(xk)∂dkF_{\lambda} ^{[k]}(x_k) = F_{\lambda}(x_k) +(F_{\lambda} ^{[k]}(x_k) -d_k) \frac{\partial F_{\lambda(x_k)}}{\partial d_k} \tag{式19}Fλ[k](xk)=Fλ(xk)+(Fλ[k](xk)dk)dkFλ(xk)(19)
由式5可以得出:
(式20)∂Fλ(xk)∂dk=akk(λ)\frac{\partial F_{\lambda(x_k)}}{\partial d_k} = a_{kk}(\lambda) \tag{式20}dkFλ(xk)=akk(λ)(20)
akk(λ)a_{kk}(\lambda)akk(λ)是影响矩阵A(λ)A(\lambda)A(λ)对角线上的第kkk个元素,将式20代入式19可以得到:
(式21)Fλ[k](xk)=Fλ(xk)−akkdk1−akk(λ)=Fλ(xk)−dk1−akk(λ)+dkF_{\lambda} ^{[k]}(x_k) = \frac{F_{\lambda}(x_k) - a_{kk}d_k}{1-a_{kk}(\lambda)} = \frac{F_{\lambda}(x_k)-d_k}{1-a_{kk}(\lambda)}+d_k \tag{式21}Fλ[k](xk)=1akk(λ)Fλ(xk)akkdk=1akk(λ)Fλ(xk)dk+dk(21)
式18可重新定义成:
(式22)V0(λ)=1N∑k=1N[Fλ(xk)−dk1−akk(λ)]2V_0(\lambda) = \frac{1}{N}\sum _{k=1} ^N [\frac{F_{\lambda}(x_k)-d_k}{1-a_{kk}(\lambda)}]^2 \tag{式22}V0(λ)=N1k=1N[1akk(λ)Fλ(xk)dk]2(22)
但是对于不同的k,akk(λ)a_{kk}(\lambda)akk(λ)的值是不同的,这说明不同的数据点在V0(λ)V_0(\lambda)V0(λ)中具有不同的作用。为了避免通常的交叉验证的这一特性,将上式改变为:
(式23)V0(λ)=1N∑k=1Nwk[Fλ(xk)−dk1−akk(λ)]2V_0(\lambda) = \frac{1}{N}\sum _{k=1} ^N w_k[\frac{F_{\lambda}(x_k)-d_k}{1-a_{kk}(\lambda)}]^2 \tag{式23}V0(λ)=N1k=1Nwk[1akk(λ)Fλ(xk)dk]2(23)
wkw_kwk的定义为:
(式23)wk=[1−akk(λ)1Ntr[I−A(λ)]]2w_k = [\frac{1-a_{kk}(\lambda)}{\frac{1}{N} tr[I- A(\lambda)]}]^2\tag{式23}wk=[N1tr[IA(λ)]1akk(λ)]2(23)
据此:
(式24)V0(λ)=1N∑k=1N(dk−Fλ(xk))2(1Ntr[I−A(λ))2]V_0(\lambda) = \frac{ \frac{1}{N}\sum _{k=1} ^N (d_k - F_{\lambda}(x_k))^2}{(\frac{1}{N} tr[I - A(\lambda))^2}] \tag{式24}V0(λ)=(N1tr[IA(λ))2N1k=1N(dkFλ(xk))2](24)
据此得到的V0(λ)V_0(\lambda)V0(λ)仅依赖与数据d相关的数据量。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值