02、线性回归模型(一个参数)——Linear Regression with one vraiable
Supervised Learning model Data has “right answers”(监督学习的数据有正确答案——标签)
监督学习算法会输入一个数据集,然后监督学习算法会产生一些功能(function,f),f的工作就是采用新的输入x和输出( y ^ \hat{y} y^)并进行估计或预测。
training set ⇒ \Rightarrow ⇒ learning algorithm $\Rightarrow $(x → \rightarrow → f $\rightarrow $ y)。
- x:feature;
- f:model;
- y:target。
在监督学习中,training set(训练集)包括feature(输入特征)和target(目标)。
机器学习常用术语:
- 训练集(training set):用于训练模型的数据集;
- 输入变量/特征(input variable/feature):表示输入的符号一般为x;
- 输出变量/目标(output variable/target):表示预测的输出变量,符号一般为y;
- 训练实例数(number of training examples):在训练集中表现为行的个数,用小写的m表示;
- 单个训练实例(single training example):在训练集中,每一行表示一个训练实例,用(x,y)表示;
- 具体的训练实例这样表示:(x(i),y(i)),这表示第i个训练实例
一个参数线性回归模型的表示:
表达式:fw,b(x) = wx + b;
也可以简写为:f(x) = wx + b。
Linear regression with one variable(signal feature x)。
- Model(模型):fw,b(x) = wx + b
- parameters(参数):w,b(即我们可以在训练期间调整以改进模型的变量)。
- w(权重):体现在图上是slope(斜率);
- b(截距):体现在图上是与y轴的交点。
现在的问题是,我们应该如何去找到w和b的值,以便于对许多或可能的(x(i),y(i))的预测$\hat{y} $i接近真实目标yi。下面我们介绍如何衡量target和实际y的差距。
成本函数(Cost Function):
损失函数,是我们用来衡量w与b的选择是否合理的一个依据,若成本函数为0,那么所有的预测结果都与实际相同了(实际上做不到)。
平方误差成本函数(Squared error cost function):
数学表达式: J ( w , b ) = 1 2 m ∑ i = 1 m ( y ^ i − y i ) 2 J(w,b)=\dfrac{1}{2m} \sum\limits_{i=1}^m(\hat{y}^i - y^i)^2 J(w,b)=2m1i=1∑m(y^i−yi)2
- 1 m \dfrac{1}{m} m