线性的含义
线性的理解:它是一条直线,这可能让我们回到初中、高中时候定义的y=ax+b,而在线性回归模型中,它是一个特征或多个特征和结果的拟合模型(好比预测房子的价格,房子的面积、房龄、房间数等等特征,而所要预测的房子的价格就是需要的结果),最终表示为线性函数关系式。
线性函数:可以把房子对应的特征整合为一组集合(x1j,x2j,x3j,⋅⋅⋅,xnj)\left ( x_{1}^{j},x_{2}^{j},x_{3}^{j},\cdot \cdot \cdot ,x_{n}^{j} \right )(x1j,x2j,x3j,⋅⋅⋅,xnj),对应的结果为yjy^{j}yj,其中iii表示的是样本的个数,以j=1j=1j=1为例,可得线性函数关系式
y=a0+b1x1+b2x2+b3x3+⋅⋅⋅+bmxmy=a_{0}+ b_{1}x_{1}+b_{2}x_{2}+b_{3}x_{3}+\cdot \cdot \cdot+b_{m}x_{m}y=a0+b1x1+b2x2+b3x3+⋅⋅⋅+bmxm
线性回归模型:说白了就是一个函数,好比求解f(x)=ax+bf(x)=ax+bf(x)=ax+b,而要求解的函数往往写成
hθ(x)=h0+θ1x1+θ2x2+θ3x3+⋅⋅⋅+θmxmh_{\theta}(x)=h_{0}+ \theta_{1}x_{1}+\theta_{2}x_{2}+\theta_{3}x_{3}+\cdot \cdot \cdot+\theta_{m}x_{m}hθ(x)=h0+θ1x1+θ2x2+θ3x3+⋅⋅⋅+θmxm
此外,为了方便合并,都会添加x0=1x_{0}=1x0=1这项,于是函数为
hθ(x)=θ0x0+θ1x1+θ2x2+θ3x3+⋅⋅⋅+θmxmh_{\theta}(x)=\theta_{0}x_{0}+ \theta_{1}x_{1}+\theta_{2}x_{2}+\theta_{3}x_{3}+\cdot \cdot \cdot+\theta_{m}x_{m}hθ(x)=θ0x0+θ1x1+θ2x2+θ3x3+⋅⋅⋅+θmxm
然后,更简洁的公式出来了,如下
hθ(x)=∑i=0mθixi=θTXh_{\theta}(x)=\sum_{i=0}^{m}\theta_{i}x_{i}=\theta^{T}Xhθ(x)=∑i=0mθixi=θTX
其中,θi\theta_{i}θi是xix_{i}xi对应的权值(系数),θT、X\theta^{T}、XθT、X分别表示权值向量、特征向量,而实际工业中XXX是已知的一些样本,而所要求的是θT\theta^{T}θT,求出来了,那模型也就有了。
线性回归模型求解
为了求解θT\theta^{T}θT,会先定义损失函数(或成本函数)
J(θ)=12m∑i=0m(hθ(xi)−yi)2J(\theta)=\frac1{2m}\sum_{i=0}^{m}(h_{\theta}(x^{i})-y^{i})^{2}J(θ)=2m1∑i=0m(hθ(xi)−yi)2
然后需要尽量减小J(θ)J(\theta)J(θ),常用的方法有梯度下降法(Gradient Descent),牛顿法和拟牛顿法,模拟退火法(Simulated Annealing) 等等,这里以梯度下降法为例,公式为
θj:=θj−α∂∂θjJ(θ)\theta_{j}:=\theta_{j}-\alpha\frac\partial{\partial\theta_{j}}J(\theta)θj:=θj−α∂θj∂J(θ)
其中α\alphaα是步长,步长太大,容易错过argargarg min(J(θ))min(J(\theta))min(J(θ)),太小效率太慢,有的情况会落入局部最小值。
然后,J(θ)J(\theta)J(θ)代入可得
θj:=θj−α∑i=0m(hθ(xi)−yi)xji\theta_{j}:=\theta_{j}-\alpha\sum_{i=0}^{m}(h_{\theta}(x^{i})-y^{i})x_{j}^iθj:=θj−α∑i=0m(hθ(xi)−yi)xji
得到新的θj\theta_{j}θj代入J(θ)J(\theta)J(θ)中,反复迭代,直到两次θj\theta_{j}θj相等或差值小于人为设定的阈值(超参数),这时的hθ(x)h_{\theta}(x)hθ(x),即为要找的模型。
结语
本文对线性回归模型做了简单的分析,但由于实际中的应用,可能会有各种各样的变种,但是有必要先了解最基本模型的原理,以及处理方式,以至于不把机器学习当黑盒使用。不可避免的文中还有很多不足之处,有待进一步完善。