线性回归
线性回归是我们比较熟悉的一类回归模型。已知自变量x和因变量y,利用这些值我们可以建立两者之间的线性关系。通常采用最小二乘法来求解。推导过程如下图:
岭回归
当线性回归模型中存在多个相关变量时,它们的系数确定性变差并呈现高方差。比如说,在一个变量上的一个很大的正系数可能被在其相关变量上的类似大小的负系数抵消,岭回归就是通过在系数上施加约束来避免这种现象的发生。岭回归是一种求解近似解的方法,它的原理是牺牲解的无偏性来获得稳定的数值解。
通常,引入一个正则参数来建立模型J。岭回归的解仍然是y的线性函数。
注意到,岭回归在不同自变量的不同度量下的解是不同的,因此在进行岭回归的时候,要先将X和Y标准化。
逻辑回归
与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。逻辑回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。所以实际中最常用的就是二分类。逻辑回归虽然名字里带“回归”,但是它实际上是一种分类方法,主要用于两分类问题(即输出只有两种,分别代表两个类别),所以利用了Logistic函数(或称为Sigmoid函数),它将数据拟合到logistic函数中,从而能够完成对事件发生的概率进行预测。
主要用途:1、寻找危险因素:寻找某一疾病的危险因素等;2、预测:根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大;3、判别:实际上跟预测有些类似,也是根据模型,判断某人属于某病或属于某种情况的概率有多大,也就是看一下这个人有多大的可能性是属于某病。
主要步骤是:1、寻找预测函数h函数(即hypothesis);2、构造J函数(损失函数);3、想办法使得J函数最小并求得回归参数(θ)
由图片可知,已经