深入浅出数据分析 - 回归

10.1 回归分析

10.1.1 回归分析

回归分析预测法,是在分析市场现象自变量和因变间相关关系的基础上,建立变量之间的回归方程,并将回归方程作为预测模型,根据自变量在预测期的数量变化来预测因变关系大多表现为相关关系,因此,回归分析预测法是一种重要的市场预测方法,当我们在对市场现象未来发展状况和水平进行预测时,如果能将影响市场预测对象的主要因素找到,并且能够取得其数量资料,就可以采胞归分析预测法进行预测。它是一种具体的、行有效的、实用价值很高的常用市场预测方法。

在统计学中,回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。

在大数据分析中,回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。

10.1.2 回归分析的分类

回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。

10.1.3 回归分析的步骤

1.根据预测目标,确定自变量和因变量

明确预测的具体目标,也就确定了因变量。如预测具体目标是下一年度的销售量,那么销售量Y就是因变量。通过市场调查和查阅资料,寻找与预测目标的相关影响因素,即自变量,并从中选出主要的影响因素。

2.建立回归预测模型

依据自变量和因变量的历史统计资料进行计算,在此基础上建立回归分析方程,即回归分析预测模型。

3.进行相关分析

回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。只有当变量与因变量确实存在某种关系时,建立的回归方程才有意义。因此,作为自变量的因素与作为因变量的预测对象是否有关,相关程度如何,以及判断这种相关程度的把握性多大,就成为进行回归分析必须要解决的问题。进行相关分析, 一般要求出相关关系,以相关系数的大小来判断自变量和因变量的相关的程度。

4.检验回归预测模型,计算预测误差

回归预测模型是否可用于实际预测,取决于对回归预测模型的检验和对预测误差的计算。回归方程只有通过各种检验,且预测误差较小,才能将回方程作为预测模型进行预测。

5.计算并确定预测值

利用回归预测模型计算预测值,并对预测值进行综合分析,确定最后的预测值。

10.1.4 注意事项

应用回归预测法时应首先确定变量之间是否存在相关关系。如果变量之间不存在相关关系,对这些变量应用回归预测法就会得出错误的结果。

正确应用回归分析预测时应注意:

①用定性分析判断现象之间的依存关系;

②避免回归预测的任意外推;

③应用合适的数据资料;

10.1.5 如何判定数据为线性分布

有一些特别的统计工具可以用来定量分析散点图的线性,但通常目测也是安全的。

10.2 算法

10.2.1 算法的引入

人们想知道该怎么提要求,还想知道提了以后能到手多少?这个过程需要一种算法。

10.2.2 算法的定义

算法(Algorithm)是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。如果一个算法有缺陷,或不适合于某个问题,执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。

10.2.3 算法的特征

  1. 有穷性(Finiteness

算法的有穷性是指算法必须能在执行有限个步骤之后终止;

2. 确切性(Definiteness)

算法的每一步骤必须有确切的定义;

3. 输入项(Input)

一个算法有0个或多个输入,以刻画运算对象的初始情况,所谓0个输入是指算法本身定出了初始条件;

4. 输出项(Output)

一个算法有一个或多个输出,以反映对输入数据加工后的结果。没有输出的算法是毫无意义的;

5. 可行性(Effectiveness)

算法中执行的任何计算步骤都是可以被分解为基本的可执行的操作步骤,即每个计算步骤都可以在有限时间内完成(也称之为有效性)。

10.2.4 算法的要素

一、数据对象的运算和操作:计算机可以执行的基本操作是以指令的形式描述的。一个计算机系统能执行的所有指令的集合,成为该计算机系统的指令系统。一个计算机的基本运算和操作有如下四类

1.算术运算:加减乘除等运算

2.逻辑运算:或、且、非等运算

3.关系运算:大于、小于、等于、不等于等运算

4.数据传输:输入、输出、赋值等运算

二、算法的控制结构:一个算法的功能结构不仅取决于所选用的操作,而且还与各操作之间的执行顺序有关。

10.2.5 算法的评定

同一问题可用不同算法解决,而一个算法的质量优劣将影响到算法乃至程序的效率。算法分析的目的在于选择合适算法和改进算法。一个算法的评价主要从时间复杂度空间复杂度来考虑。

  1. 时间复杂度

算法的时间复杂度是指执行算法所需要的计算工作量。一般来说,计算机算法是问题规模n的函数f(n),算法的时间复杂度也因此记做:t(n)=o(f(n));因此,问题的规模n越大,算法执行的时间的增长率与f(n)的增长率正相关,称作渐进时间复杂度(Asymptotic Time Complexity)。

2. 空间复杂度

算法的空间复杂度是指算法需要消耗的内存空间。其计算和表示方法与时间复杂度类似,一般都用复杂度的渐近性来表示。同时间复杂度相比,空间复杂度的分析要简单得多。

(1)正确性

算法的正确性是评价一个算法优劣的最重要的标准。

(2)可读性

算法的可读性是指一个算法可供人们阅读的容易程度。 

(3)鲁棒性

鲁棒性是指一个算法对不合理数据输入的反应能力和处理能力,也称为容错性

10.3 散点图

10.3.1 散点图定义

散点图是指在回归分析中,数据点在直角坐标系平面上的分布图,散点图表示因变量随自变量而变化的大致趋势,据此可以选择合适的函数对数据点进行拟合。

用两组数据构成多个坐标点,考察坐标点的分布,判断两变量之间是否存在某种关联或总结坐标点的分布模式。散点图将序列显示为一组点。值由点在图表中的位置表示。类别由图表中的不同标记表示。散点图通常用于比较跨类别的聚合数据。

10.3.2 绘制步骤

1、单击视图菜单,指向图表,然后单击创建图表

2、单击图表类型下拉箭头,然后选择散点图类型。

3、单击图层/表下拉箭头,然后选择含有要绘成图表的数据值的图层或表。

4、单击 Y 字段下拉箭头,然后选择要绘成图表的值的字段。向导将显示图表的初始版本。最初,点将按源表中值的顺序(记录 1、记录 2,以此类推)沿水平轴分布。

5、可使用 X 字段参数将点的顺序更改为基于另一个字段。

6、例如,有一个包含国家人口和面积的表。如果将 Y 字段设置为人口,将 X 字段设置为默认值 <>,则散点图的数据点将根据表中数据值的顺序沿 x 轴分布,表中的第一个条目对应最左侧的点,表中最后一个条目对应最右侧的点。

7、如果随后将 X 字段设置为面积字段,则将以最小面积作为最左侧的点、最大面积作为最右侧的点,按此大小顺序对点进行排序。这会帮助您了解一个国家的人口与其面积之间是否存在相关性。

8、在 X 标注字段中指定一个不同的字段来标注散点图中的水平轴。

9、默认情况下,输入数据的值将被添加到图表的图例中。可通过取消选中添加到图例复选框来禁用此设置。

10、选中显示标注(标记) 复选框可用数据点的值来标记数据点。如果尚未设置 X 标注字段,则会将 Y 字段值用作标注值。可通过更改 X 标注字段中的值来更改用于对点进行标注的字段。

11、使用颜色控件可以更改散点图上的标记的外观。

12、使用符号属性选项卡可以更改散点图中数据点的外观。画笔选项卡可控制点的大小和标记类型,边框选项卡可控制点标记符号轮廓的宽度、样式和颜色。

13、单击下一步按钮进入常规属性页以完成绘图。

10.3.3 提供关键信息

1、变量之间是否存在数量关联趋势

2、如果存在关联趋势,是线性还是曲线的

3、如果有某一个点或者某几个点偏离大多数点,也就是离群值,通过散点图可以一目了然。从而可以进一步分析这些离群值是否可能在建模分析中对总体产生很大影响。

10.3.4 适用范围

即便自变量为连续性变量,仍然可以使用散点图。也就是说散点图通过散点的疏密程度和变化趋势表示二个连续变量的数量关系。不仅如此,如果有三个变量,并且自变量为分类变量,散点图通过对点的形状或者点的颜色来区分,即可了解这些变量之间的关系。如果所有的变量为连续性变量,还可以在许多统计软件中绘制高维散点图。如果把一些个案也就是同一个自变量的点连接起来,就成为了线图,也就是表示因变量指标是上升还是下降的。

10.4 相关系数

10.4.1 什么是相关系数

相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度。

著名统计学家卡尔皮尔逊设计了统计指标--相关系数。相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。

依据相关现象之间的不同特征,其统计指标的名称有所不同。如将反映两变量间线性相关关系的统计指标称为相关系数(相关系数的平方称为判定系数) ;将反映两变量间曲线相关关系的统计指标称为非线性相关系数、非线性判定系数;将反映多元线性相关关系的统计指标称为复相关系数、复判定系数等。

10.4.2 相关系数的几种定义

相关关系是一种非确定性的关系,相关系数是研究变之间线性相关程度的量。由于研究对象的不同,相关系数有如下几种定义方式。

1. 简单相关系数:又叫相关系数或线性相关系数,一般用字母P 示,是用来度变量间的线性关系的量。

2.复相关系数:又叫多重相关系数。复相关是指因变量与多个自变量之间的相关关系。例如,某种商品的季节性需求量与其价格水平、职工收入水平等现象之间呈现复相关关系。

3.典型相关系数:是先对原来各组变量进行主成分分析,得到新的线性关系的综合指标,再通过综合指标之间的线性相关系数来研究原各组变间相关关系。

10.4.3 相关系数的性质

1|ρxy|≤1

2、定理:|ρxy|=1 的充要条件是,存在常数ab,使得ρ{Y=a+bX}=1

相关系数ρXY 取值在-11之间,

ρXY=0 时,称X,Y不相关

xy|=1 时,称X,Y完全相关,此时,XY之间具有线性函数关系

xy|<1 时,X的变动引起Y的部分变动,ρxy 的绝对值越大,X的变动引起Y的变动就越大,|ρxy|>0.8 时称为高度相关,当ρXY2<0.09 ,即|ρxy|<0.3 时,称为低度相关其他为中度相关

3、推论:若Y = a + bX,则有

(这里的a,应该是回归线与Y轴交接处的值;b为斜率,即可测量X轴上的各个单位对应的一条线的上升速度(“高”,或者叫做Y值的变化);斜率=/边长=b

10.4.4 相关系数的计算方法

书中相关系数计算方法:

10.4.5 相关系数的缺点

需要指出的是,相关系数有一个明显的缺点,即它接近于1的程度与数据组数n相关,这容易给人一种假象。因为,当n较小时,相关系数的波动较大,对有些样本相关系数的绝对值易接近于1;n较大时,相关系数的绝对值容易偏小。特别是当n=2时,相关系数的绝对值总为1。因此在样本容量n较小时,我们仅凭相关系数较大就判定变量xy之间有密切的线性关系是不妥当的。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值