目录
一、回归问题概述
在机器学习有监督学习中,分为两种问题:分类和回归。
1、举例
数据:工资和年龄(2个特征)
目标:预测银行会贷款给我多少钱(标签)
考虑:工资和年龄都会都会影响最终银行贷款的 结果那么它们各自有多大的影响呢?(参数)
2、通俗解释
- X1,X2就是我们的两个特征(年龄,工资) Y是银行最终会借给我们多少钱
- 找到最合适的一条线(想象一个高维)来尽可能多的拟合我们的数据点
3、数学应用
- 假设是
年龄的参数,
是工资的参数
- 拟合的平面,其中(
:权重项;
:偏置项 微调)
- 整合:
二、误差项定义
误差
真实值和预测值之间肯定是要存在差异的 (用来表示该误差)
对于每个样本:
(真实值=预测值+误差项)损失函数越接近零,越好。
三、独立同分布的意义
- 误差
是独立并且具有相同的分布, 并且服从均值为0方差为
的高斯分布;
- 独立:张三和李四一起来贷款,他俩没关系;
- 同分布:他俩都来得是我们假定的这家银行;
- 高斯分布:银行可能会多给,也可能会少给,但是绝大多数情况下 这个浮动不会太大,极小情况下浮动会比较大,符合正常情况;
四、似然函数的作用
- 预测值与误差:
(1)
- 由于误差服从高斯分布:
(2)
- 将(1)式带入(2)式:
1、似然函数
解释了什么样的参数跟我们的数据组合后恰好是真实值 (联合边缘密度等于边缘密度乘积。)
2、对数似然
解释了乘法难解,加法就容易了,对数里面乘法可以转换成加法
3、展开化简
求:成为y的可能性越大越好。
4、目标:让似然函数(对数变换后也一样)越大越好
五、参数求解
1、目标函数
2、求偏导
得到极值点
3、偏导等于0
4、评估方法
的取值越接近于1我们认为模型拟合的越好。