机器学习-线性回归问题
西瓜书中的一个例子,若在西瓜问题中学得:
则意味着可通过综合考虑色泽、根蒂和敲声来判断瓜好不好,其中根蒂最要紧,而敲声比色泽更重要,这里的0.2、0.5、0.3直观的表达了各属性在判断西瓜好坏的重要性。
所谓的线性回归,就是利用数理统计中的回归分析,来确定两种或两种以上变量间,相互依赖的定量关系的一种统计分析方法。
这里根据特征和输入变量的数目,将线性回归问题分为两种:单变量线性回归和多变量线性回归,即和
.
1、单变量线性回归
首先,来看下单变量线性回归
即由样本(x,y),推断y=wx+b的过程。其中w,b为需要推断的常量。这里有两个问题。
(1)为什么是"y=wx+b"型的一元一次结构?而非其它一元N次结构?
(2)如何推算出w,b?
1.1 假设函数
先来回答上一小节的问题(1)。可以使用其它一元N次结构。选择一元一次结构只是为了方便。之后的学习,可以换为更复杂的拟合结构。由于我们假设x,y之间存在"y=wx+b"型的映射关系,所以函数f(x)=wx+b被称为假设函数,hypothesis function。
对于假设函数中的参数w,b,我们没有办法直接算出正确的值。也无法让所有样本,都映射到假设函数上。因此,只能推算出对于样本集合整体来说,最佳的w,b取值。
1.2 代价函数
如何评断参数w,b最佳?最佳w,b应使得假设函数求得的数据,与实际数据之间误差的平方和为最小。这种基于误差平方和最小化来进行线性模型的求解方法称为