对应西瓜书第三章3.1,3.2,线性回归部分。参考视频:第3章-一元线性回归_哔哩哔哩_bilibili
一元线性回归:
线性回归情况分类:
连续值:[发际线高度]预测[计算机水平]:f(x) = w1x1+b
二值离散特征[颜值](好看:1,不好看:0): f(x)=w1x1+b
有序的多值离散特征[饭量] (小: 1,中: 2,大: 3):f(x)=w1x1+b
ps:有序就可以理解为相互之间有高低之分,程度之分
无序的多值离散特征[人种](黄:[1,0,0],黑:[0,1,0],白: [0,0,1]):
f(x)=w1x1+w2x2 +w3x3+b
如果把上面几种情况融合到一起即:
我要判断这个人的计算机水平+颜值高低+饭量大小+哪种人:
f(x)= w1x1 + w2x2 + w3x3 + w4x4 + w5x5 + w6x6 + b
本节主要围绕发际线与计算机水平这个例子展开:
最小二乘法:
发际线与计算机水平这个例子,按经验来说,模型大约是服从y=wx+b的;如图蓝紫色线便是一种可能;图中红色虚线部分为该点到蓝色线的竖直距离,注意不是垂直距离,一些朋友应该有些冲动:先将所有的点到该线的竖直距离求和,然后想办法使这个和最小;这个策略本质就是这样的符合直觉;点到蓝线的竖直距离称为损失,求和这种基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。
因此我们可以给出右边损失函数所示的公式: