前言
- 尽量表述通俗易懂
线性回归的定义和原理
- 线性回归的定义:线性回归通过一个或者多个自变量(特征)与因变量(目标值)之间之间进行建模的回归分析。其特点为一个或多个称为回归系数的模型参数的线性组合。
通俗理解:特征值和目标值间具有某个函数关系。 - 问题1:什么样的数据会使用线性关系模型?
- 回答1: 当特征值和目标值在一个二维的时候大概是一个直线的关系(特征值只有一列的时候);在三维或者多维空间大概呈现为平面或者别的几何图形关系时(特征值是多列时)。 就符合了线性回归的特点,适用于线性回归模型。
- 问题2:如何让线性回归公式化?可视化?
- 回答2:线性回归的公式表示:
- 一元线性回归(涉及到的变量(特征)只有一个):f(x)=wx+b;
- 多元线性回归(涉及到的变量(特征)两个或两个以上):f(x)=w1x1+w2x2+…+wd*xd+b。
- 公式参数介绍:w(w1,w2,…,wd)为权重,b为偏置项(可以理解为w0*1(常量)),x(x1,x2,…,xd)为特征值,f(x)为目标值(对于多元线性回归而言:w、x、f(x)、是一个矩阵,而不是一个固定的值)。
- 由此可以引出线性回归预测的原理:当知道每个特征的权重值时,可以通过运算,直接计算出目标值。
- 问题3:那么在看一下在线性回归模型的训练过程中,究竟是一个怎样的过程呢?
- 回答3:
- 问题4:如何找到这个权重值?
- 回答4:在找这个权重值的时候,我们需要一个衡量标准,来衡量:不同权重对应的目标值偏差大小,而损失函数(误差大小):最小二乘法公式,就是衡量的标准:
- 公式参数介绍: j ( θ ) j(\theta) j(θ):为总损失值(偏差值); y i yi yi:为第 i i i个训练样本的真实值;