回归问题普遍讨论的是多元线性回归,考虑多个特征可以得到更精确的模型,这其中涉及中心极限定理,正态分布,概率密度函数和最大似然估计。
(一)背景——多元线性回归
1.概念
本质上就是算法(公式)变换为了多元一次方程组
y = F(x) = w1x1 + w2x2 + w3x3 + … + wnxn + w0*x0
W = (w0,w1…,wn)T
X = (x0,x1…,xn)T
这里W是n行的列向量,X也是n行的列向量
故也可以写为
这里的W代表着权重(weight),举个例子
好瓜 = 0.5色泽 + 0.2根蒂 + 0.3敲声
在这诸多因素中,各个因素的系数代表权重,显然色泽在判断瓜的好坏这个模型中是更加重要的因素。
上述y是样本的预测值,若Y代表样本的真实值,error为误差
2.多元线性回归的流程*
假设有m个样本,每个真实样本与预测值都存在误差error,我们已知的数据集DataSet中有m*n的矩阵X和列向量真实值Y。