- 概念:线性回归是为了找到一条合适的线或者面来拟合数据
- 引导过程:假设预测一个人能从银行贷多少款?我们要考虑他的年龄、工作、有无房产等等,这是,每个考虑的因素(特征值)用x代表,考虑的因素的重要性的高低用w表示,则这个人的贷款额度可以的用以下公式表示表达:
(PS:w叫权重,对结果有决定性的影响,是计算主要优化的对象。b叫偏置,对结果影响不大,以后计算中经常忽略)
(2)对于上面的公式简化表达:
(PS:机器学习中,数据量比较大,采用向量化来计算,来提升效率,不然就得就for循环了)
(3)误差:机器学习中预测模型跟真实值之间肯定是有误差(误差会在真实值的上下浮动),引入误差项表达:
(PS:y(i)代表真实的值,wTx+E(i)代表模型预测再加上与真实值存在的误差。其中每个人能贷款多少是彼此独立的,所以每个样本的误差也都是独立的,这里再次引入正态分布,也叫高斯分布的概念来形容每个单独的样本的误差分布情况)
(4)正太分布公式如下:
(5)将正态分布引入公式后:(w与θ同义)