Lab2:Distribute Machine Learning: Computer and Storage

本节介绍线性回归模型（ $\hat{y}=w^Tx$ ）的最小二乘“参数估计几”的几种求解方法的时间和空间复杂度。

一、最小二乘法的闭式解

最小二乘法的闭式解优点是可以得到全局最优解，缺点是计算和存储效率低.
为了方便对时间和空间复杂度进行讨论，我们首先对一些变量进行定义：

$X\;\epsilon \;{R^{n\times d}}$
$y \;\epsilon\;{R^{n}}$
$\hat{y}\;\epsilon\;{R^{n}}$
$w\;\epsilon\;{R^{n}}$

最小二乘法的求解目标是得到一个W使得 $\hat{y}$ 和y的均方误差最小：

a r g min w \sum i = 1 n (w T x (x i) - y) 2 (1)

$arg \min_{w}\sum_{i=1}^{n}(w^Tx^{(x_i)}-y)^2\tag{1}$
当满足

XTX $X^TX$ 为满秩矩阵时，该最小二乘法模型存在闭式解，把式(1)对w求导，再令导函数为零得：

w = (X T X) - 1 X T y (2)

$w=(X^TX)^{-1}X^Ty\tag{2}$

矩阵的分布式计算
spark平台对矩阵进行计算的方法和我们平时计算的办法不同，下面将通过计算 $X^TX$ 为例演示这个过程。

[142536] ⎡ ⎣ ⎢ ⎢ 123456 ⎤ ⎦ ⎥ ⎥ = [14323277] (3)

$\left[\begin{matrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{matrix} \right] \tag{3} \left[\begin{matrix} 1 & 4 \\ 2 & 5 \\ 3 & 6 \end{matrix}\right]= \left[\begin{matrix} 14 & 32 \\ 32 & 77 \end{matrix} \right]$
算式（3）在spark上计算时可分解成3个job进行并行计算。

$X^T$ 的第一列 $X$ 的第一行相乘得矩阵a。

$[14 * * * *] ⎡ ⎣ ⎢ ⎢ 1 * * 4 * * ⎤ ⎦ ⎥ ⎥ = [14416]$ $\left[\begin{matrix} 1 & *& *\\ 4 & * & *\end{matrix}\right] \left[\begin{matrix} 1 & 4\\ * & * \\ * & * \end{matrix}\right]= \left[\begin{matrix} 1 & 4\\ 4& 16 \end{matrix}\right]$
$X^T$ 的第二列 $X$ 的第二行相乘得矩阵b。

$[* * 25 * *] ⎡ ⎣ ⎢ ⎢ * 2 * * 5 * ⎤ ⎦ ⎥ ⎥ = [4101025]$ $\left[\begin{matrix} * & 2& *\\ * & 5& *\end{matrix}\right] \left[\begin{matrix} * & *\\ 2 & 5 \\ * & * \end{matrix}\right]= \left[\begin{matrix} 4 & 10\\ 10& 25 \end{matrix}\right]$
$X^T$ 的第三列 $X$ 的第三行相乘得矩阵c。
$[* * * * 36] ⎡ ⎣ ⎢ ⎢ * * 3 * * 6 ⎤ ⎦ ⎥ ⎥ = [9181836]$ $\left[\begin{matrix} * & *& 3\\ * & *&6\end{matrix}\right] \left[\begin{matrix} * & *\\ * & * \\ 3 & 6 \end{matrix}\right]= \left[\begin{matrix} 9 & 18\\ 18& 36 \end{matrix}\right]$
最后将a、b、c三个矩阵相加可得结果。
下图是从berkeley的课件中截取的，详细的说明了矩阵的mapreduce过程，还有计算时的时间和空间复杂度。