mysql 回归分析_回归分析预测技术简介

本文介绍了回归分析的基本概念,包括一元线性回归和多元线性回归,详细阐述了线性回归的优缺点。接着,讨论了Spark MLlib中的线性回归模型,特别是使用SGD算法实现的线性回归,并给出了训练模型的实例。最后,简要提到了逻辑回归在分类问题中的应用。

回归分析的基本概念是用一群变量预测另一个变量的方法。通俗点来讲,就是根据几件事情的相关程度来预测另一件事情发生的概率。回归分析的目的是找到一个联系输入变量和输出变量的最优模型。

回归方法有许多种,可通过 3 种方法进行分类:自变量的个数、因变量的类型和回归线的形状。

1)依据相关关系中自变量的个数不同进行分类,回归方法可分为一元回归分析法和多元回归分析法。在一元回归分析法中,自变量只有一个,而在多元回归分析法中,自变量有两个以上。

2)按照因变量的类型,回归方法可分为线性回归分析法和非线性回归分析法。

3)按照回归线的形状分类时,如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,则这种回归分析称为一元线性回归分析;如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是非线性关系,则称为多元非线性回归分析。

1. 线性回归

线性回归是世界上最知名的建模方法之一。在线性回归中,数据使用线性预测函数来建模,并且未知的模型参数也是通过数据来估计的。这些模型被叫作线性模型。在线性模型中,因变量是连续型的,自变量可以是连续型或离散型的,回归线是线性的。

1)一元线性回归

回归分析的目的是找到一个联系输入变量和输出变量的最优模型。更确切地讲,回归分析是确定变量 Y 与一个或多个变量 X 之间的相互关系的过程。

Y 通常叫作响应输出或因变量,X 叫作输入、回归量、解释变量或自变量。线性回归最适合用直线(回归线)去建立因变量 Y 和一个或多个自变量 X 之间的关系,如图 1 所示。可以用以下公式来表示。

Y = a+b x X+e

其中,a 为截距,b 为回归线的斜率,e 是误差项。

要找到回归线,就是要确定回归系数 a 和 b。假定变量 y 的方差是一个常量,可以用最小二乘法来计算这些系数,使实际数据点和估计回归直线之间的误差最小,只有把误差做到最小时得出的参数,才是我们最需要的参数。这些残差平方和常常被称为回归直线的误差平方和,用 SSE 来表示,如下。

bcb1944e9508b412c0b96cc5cfe1b981.png

9293d3af506dd158796b8fdb3897fd34.gif

图 1  一元线性回归

如图 2 所示,回归直线的误差平方和就是所有样本中的

b45a7fb1297ad3fb7bc5216832ba81ef.png  值与回归线上的点中的 

b45a7fb1297ad3fb7bc5216832ba81ef.png 的差的平方的总和。

d9c7b6f9b364584078d53002109a7cc4.gif

图 2  回归直线的误差平方和示意

2)多元线性回归

多元线性回归是单元线性回归的扩展,涉及多个预测变量。响应变量 Y 的建模为几个预测变量的线性函数,可通过一个属性的线性组合来进行预测,其基本的形式如下。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值