曲线拟合——最小二乘法与高斯假设下的最大似然估计和最大后验估计
曲线拟合——最小二乘法与高斯假设下的最大似然估计和最大后验估计
这一次推导一下采用最小二乘法进行曲线拟合,以及在高斯假设下采用最大似然估计和最大后验估计的曲线拟合。这也是《Pattern Recognition and Machine Learning》书中第一章的内容,相关公式编号与原书一致。
通过这个推导可以使我们看到最小二乘法与高斯假设下的最大似然估计之间的联系,以及带有系数的 l 2 \mathcal{l}_2 l2 范数正则项的最小二乘法与高斯假设下的最大后验估计之间的联系。
1. 使用平方和误差函数的多项式曲线拟合——最小二乘法
训练集包含 x x x 的 N N N 个观测值 X = { x 1 , … , x N } \mathcal{X}=\{ x_1,\dots,x_N \} X={ x1,…,xN} 及它们对应的目标值 T = { t 1 , … , t N } \mathcal{T}=\{ t_1,\dots,t_N \} T={ t1,…,tN}。
使用 M M M 阶多项式
(1.1) y ( x , w ) = w 0 + w 1 x + w 2 x 2 + ⋯ + w M x M = ∑ j = 0 M w j x j = x T w y(x,\mathbf{w}) = w_0 + w_1x + w_2x^2 + \cdots + w_Mx^M = \sum_{j=0}^M w_jx^j = \mathbf{x}^T\mathbf{w} \tag{1.1} y(x,w)=w0+w1x+w2x2+⋯+wMxM=j=0∑Mwjxj=xTw(1.1)
进行拟合。
推导:
设数据矩阵 X ∈ R N × ( M + 1 ) X \in \mathbb{R}^{N \times (M+1)} X∈RN×(M+1),系数向量 w ∈ R ( M + 1 ) × 1 \mathbf{w} \in \mathbb{R}^{(M+1) \times 1} w∈R(M+1)×1,目标向量 t ∈ R N × 1 \mathbf{t} \in \mathbb{R}^{N \times 1} t∈RN×1,预测向量 y ∈ R N × 1 \mathbf{y} \in \mathbb{R}^{N \times 1} y∈RN×1 ,其中
X = [ x 1 0 x 1 1 ⋯ x 1 M x 2 0 x 2 1 ⋯ x 2 M ⋮ ⋮ ⋮ ⋮ x N 0 x N 1 ⋯ x N M ] \mathbf{X} = \begin{bmatrix} x_1^0&x_1^1&\cdots&x_1^M \\ x_2^0&x_2^1&\cdots&x_2^M \\ \vdots&\vdots&\vdots&\vdots \\ x_N^0&x_N^1&\cdots&x_N^M \end{bmatrix} X=⎣⎢⎢⎢⎡x10x20⋮xN0x11x21⋮xN1⋯⋯⋮⋯x1Mx2M⋮xNM⎦⎥⎥⎥⎤
w = [ w 0 w 1 ⋮ w M ] t = [ t 1 t 2 ⋮ t M ] y = [ y 1 y 2 ⋮ y M ] \mathbf{w} = \begin{bmatrix} w_0 \\ w_1 \\ \vdots \\w_M \end{bmatrix} \qquad \mathbf{t} = \begin{bmatrix} t_1 \\ t_2 \\ \vdots \\t_M \end{bmatrix} \qquad \mathbf{y} = \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\y_M \end{bmatrix} w=⎣⎢⎢⎢⎡w0w1⋮wM⎦⎥⎥⎥⎤t=⎣⎢⎢⎢⎡t1t2⋮tM⎦⎥⎥⎥⎤y=⎣⎢⎢⎢⎡y1