集成学习(上):任务二
掌握基本的回归模型、机器学习问题一般流程
1、什么是回归?
概念来源:19世纪80年代由英国统计学家郎西斯.高尔顿在研究父子身高关系提出来的,他发 现:在同一族群中,子代的平均身高介于父代的身高以及族群的平均身高之间。具体而言,高个 子父亲的儿子的身高有低于其父亲身高的趋势,而矮个子父亲的儿子身高则有高于父亲的身高的 趋势。也就是说,子代的身高有向族群平均身高"平均"的趋势,这就是统计学上"回归"的最初含 义。
2、回归的问题对象是什么?
研究的是因变量(目标)和自变量(特征)之间的关 系。
3、回归的用处是什么?
回归分析是一种预测性的建模技术,这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。
4、回归的目标是什么?
通常使用曲线/线 来拟合数据点,目标是使曲线到数据点的距离差异最小。
5、以线性回归为例:
线性回归就是回归问题中的一种,线 性回归假设目标值与特征之间线性相关,即满足一个多元一次方程。通过构建损失函数,来求解 损失函数最小时的参数w、b。
我们需要衡量真实值 与线性回归模型的预测值 之间的差距
(a) 最小二乘估计:
涉及的知识点:
L1,L2范数
线性均方误差是一个关于 w 的可微凸函数,即线性回归是一个凸优化问题,所以线性回归有唯一最优值,即
条件是L’(w) = 0
(b) 几何解释:
© 概率视角:假设噪声 ,因此: 我们使用极大似然估计MLE对参数w进行估计: 𝜖 ∽ 𝑁(0, 𝜎 ), 𝑦 = 𝑓(𝑤) + 𝜖 = 𝑥 + 𝜖 2 𝑤𝑇 𝑦|𝑥 , 𝑤 𝑁( 𝑥, )
6、线性回归的推广
(a) 多项式回归:线性回归可以对样本数据是非线性而只对参数是线性的
(b) 广义可加模型(GAM):
如果y与x不满足线性关系,即hθ(x1,x2,⋯,xn)不能用表达式θ0+θ1x1+θ2x2+⋯+θnxn来表示,但是通过某个单调可微的函数,如 g(y),使得
g(hθ(x1,x2,⋯,xn))=θ0+θ1x1+θ2x2+⋯+θnxn
GAM模型框架:
𝑦𝑖 = 𝑤0 + ∑ ( ) + 𝑗=1 𝑝 𝑓𝑗 𝑥𝑖𝑗 𝜖�
GAM模型的优点与不足: 优点:简单容易操作,能够很自然地推广线性回归模型至非线性模型,使得模型的预测精度 有所上升;由于模型本身是可加的,因此GAM还是能像线性回归模型一样把其他因素控制不 变的情况下单独对某个变量进行推断,极大地保留了线性回归的易于推断的性质。 缺点:GAM模型会经常忽略一些有意义的交互作用,比如某两个特征共同影响因变量,不过 GAM还是能像线性回归一样加入交互项 的形式进行建模;但是GAM模型本质上还 是一个可加模型,如果我们能摆脱可加性模型形式,可能还会提升模型预测精度,详情请看 后面的算法。
GAM模型实例介绍: 安装pygam:pip install pygam https://github.com/dswah/pyGAM/blob/master/doc/source/notebooks/quick_start.ipynb (https://github.com/dswah/pyGAM/blob/master/doc/source/notebooks/quick_start.ipynb)
© 局部加权回归
7、回归树
参考Regression Tree 回归树:https://zhuanlan.zhihu.com/p/82054400
目前,最流行的两类算法莫过于神经网络算法(卷积神经网络、循环神经网络、生成式对抗网络和图神经网络)与树形算法(随机森林、GBDT、XGBoost和LightGBM)。树形算法的基础就是决策树,由于其易理解、易构建、速度快等特点,被广泛的应用在数据挖掘、机器学习等领域。因此,决策树是经典的机器学习算法,很多复杂的机器学习算法都是由决策树演变而来。
实际上,回归树总体流程类似于分类树,分枝时穷举每一个特征的每一个阈值ÿ