对视频中线性回归算法的相关内容进行总结与记录
文章目录
一、理论基础
-
回归
通常是指利用某个函数,尽可能把数据样本点“串”在一起,用于描述输入变量和输出变量间的变化关系 -
线性回归
特点:用来把数据“串”起来的那个函数是线性的
(一元线性回归(一个自变量) & 多元线性回归(至少两个自变量) )
一个线性函数的通式为 y = k ⋅ x + b y = k · x + b y=k⋅x+b 或 y = k T x + b y = k^T x + b y=kTx+b
其中:
x x x是nx1维的自变量向量, k k k是nx1维的权重。 y y y是输出变量, b b b是常数。
若为一元线性回归,则n为1
- 线性回归的形式化定义
通常用平方误差来衡量拟合的效果:
真实值和预测值之差的平方,即: ( y ^ − y ) 2 (\hat{y} - y)^2 (y^−y)2
其中:
y ^ \hat{y} y^代表真实值, y y y代表回归拟合的预测值
二、实例
2.1 一元线性回归
用一个线性函数去拟合购买率和折扣率(有7个样本点)
用 y y y表示购买率, x x x表示折扣率,那么线性函数的表达式就为 y = k x + b y = k x + b y=kx+b
假设已经有了 k k k 和 b b b,那么就可以根据输入的x值,拟合出y的值。
线性回归的目标就是尽可能让“串”在一起的平方误差最小:
∑ i = 1 7 ( y i ^ − y i ) 2 \sum_{i=1}^{7}(\hat{y_{i}}-y_{i})^2 i=1∑7(yi^−yi)2
2.1.1 推导过程
令平方误差最小,本质即为求解最值的问题。
对线性回归而言,可以通过求导法来进行计算:
首先将平方误差函数用向量的形式进行表达:
∑ i = 1 7 ( y i ^ − y i ) 2 = ( y ^ − y ) T ( y ^ − y ) (1) \sum_{i=1}^{7}(\hat{y_{i}}-y_{i})^2 = (\hat{y}-y)^T(\hat{y}-y) \tag1 i=1∑7(yi^−y