文章目录
- 多元共线性诊断
- 定义
- 操作步骤
- 结果解读
- 线性回归(带控制变量(分层回归))
- 定义
- 操作步骤
- 结果解读
- 结果整理
- 二元逻辑回归
- 定义
- 操作
- 结果解读
- 多元有序逻辑回归分析
- 操作步骤
- 自变量存在无序分类变量的线性回归分析
- 参考资料
- 定义解释
- 在SPSS中的操作
- 设置哑变量
- 进行线性回归分析
- 逐步回归分析
多元共线性诊断
定义
在进行回归分析前,如果自变量有多个,如果我们判断自变量之间有相互影响关系,可以使用多元共线性诊断。
共线性是指两个或多个变量包含的信息比较一致,比如家庭收入和薪酬之间一般相关性就很高,这种共线性较高的,我们可以只去其中一个作为自变量。
如果自变量共线性较高会影响回归分析的结果,使得结果出现错误。
操作步骤
SPSS-分析-回归-线性
配置自变量和因变量
点击统计,勾选共线性诊断,完成配置,点击确定。
结果解读
共线性诊断结果如图:主要看VIF,如果VIF小于10,则认为共线性诊断通过,自变量之间不具有明显的共线性。
线性回归(带控制变量(分层回归))
定义
 
分层回归第一层就是控制变量和因变量的回归分析,第二层是在第一层的基础上把自变量加入进去进行回归分析,这样就可以看出增加因变量对因变量的影响如何。
操作步骤
具体操作如下:spss-分析-回归-线性,如图所示:
把因变量以及控制变量配置上去。
注意:这里需要先配置控制变量,再配置自变量。就是第一层是控制变量和因变量的分析,第二层就是在控制变量的基础上增加自变量。
点击按钮下一个,添加自变量:
点击统计按钮,选择估算值、模型拟合、描述、共线性诊断、德宾-沃森五个统计指标。点击继续、再点击确定,完成模型配置
估算值表示回归系数以值的形式展示而不是用置信区间展示、共线性诊断就是VIF值,一般情况下应小于10,德宾-沃森通常用于判断模型的自相关问题,一般情况下该值在 2 附近都可接受。
结果解读
主要结果如下:
R^2值,用于表示该模型对因变量的解释程度。
D-W值,即德宾-沃森值,通常用于判断模型的自相关问题,一般情况下该值在 2 附近都可接受;
P 值,用于表示显著性水平,通常小于 0.05 即表示显著。
回归系数的正负性代表该变量对因变量的影响方向,而回归系数的数值大小则代表该变量对因变量的影响程度。
VIF 值,通常用于判断模型是否存在共线性问题,一般情况该值应小于 10;
结果整理
对结果进行整理如下:
本研究将酒店人工智能服务质量划分为五个维度,分别是便利性、交互体验、可靠性、智能化和安全性。所以,本部分内容将对自变量酒店人工智能服务质量及其子维度分别与因变量品牌忠诚进行回归分析,具体回归结果如下表所示。
首先,将被测试者的基本信息特征作为控制变量,品牌忠诚作为因变量,人工智能服务质量作为自变量,然后进行回归分析,具体结果见下表5.16。可以看出,回归结果中的R2值为0.667,说明模型对品牌忠诚的解释度为66.7%,模型的各控制变量以及自变量的VIF值均小于10,D-W值为1.859(在2附近)且 F 检 验显著,因此,该结果表示模型的拟合效果较好。接着,对自变量的显著性进行分析:自变量人工智能服务质量的回归系数为0.823,且P值小于0.01,则说明酒店人工智能服务质量对品牌忠诚存在着显著正向影响的关系。
表 5.16 酒店机器人服务质量各维度对顾客满意的回归分析
二元逻辑回归
二元logistic回归属于非线性回归分析的一种,因变量为二分类变量,自变量可以是连续变量也可以是分类变量。
具体操作如下:spss-分析-回归-二元逻辑回归,具体操作步骤如下:
配置因变量与协变量,这里模型一般选择默认的输入,这个可以最大限度的保留自变量的信息。
如果协变量中有分类变量,需要点击分类按钮定义分类变量,这里分类变量为学历,把学历配置到分类协变量中,然后参考类别默认为最后一个,也可以改成第一个,但是改选为第一个后需要点击变化量按钮完成更改。更改完成后分类协变量会显示指示符(first)字样。这里的第一个个就是指分类变量中数值最小的一个最为对照组,最后一个是指分类变量数值最大的一个作为对照组。一般都是选择最小值作为对照组,所以一般选择第一个作为参考,然后每一个变量都可以选,需要每次点击变化量
如图:
注意:本次分析没有分类变量,这里把学历放上去是为了进行演示,后面的分析都是没有学历这个分类变量的。
点击选项按钮,勾选分类图、霍斯默-莱梅肖拟合优度以及置信区间。
运行结果如下:
这个是因变量编码,可以看到分类变量哪个是0哪个是1.
&emsp这个是自变量中的分类变量编码表,这里需要注意频率,如果频率差距过大,比如一个占比90%,一个占比10%,这种就是偏态,会对结果造成一定的影响,上图中的频率基本对半开,符合要求。注意:本次分析没有分类变量这个是其他分析的图。
在块1中找到显著性,这里的0.000表示,在此模型中至少有一个自变量的是显著的
&emsp这俩主要看卡方和显著性,这里显著性大于0.05(因为这个的原假设为拟合良好,这里不显著接受原假设,所以说这个表明拟合良好),说明在本次模型中所有自变量的信息都被提取干净,说明模型拟合程度高。
&emsp分类表显示的是模型的预算准确度,本次模型预测准确度为80.5%
这里的EXP(B)就是我们说的OR值,表明概率的倍数关系,如果是分类变量的话就是相对于参考组概率增加EXP(B)倍,如果是连续变量就是增加变量增加1因变量概率增加EXP(B)倍。
&emsp对结果进行整理如下:
&emsp根据表4-12中的分析结果,卡方系数为13.94,同时R2为0.401。在上述的11个影响因素中仅有休闲养生类产品需求X14、医疗旅游服务质量X24和周边已购买人数占比X32对购买海南医疗旅游产品意愿具有显著性影响。
&emsp结合以上分析结果,可以得知西安游客购买海南医疗旅游产品的意愿回归方程结果是:
Y=580.393+0.522X14+1.764X24+0.655X32
&emsp结合上表4-11的分析结果可以看出,休闲养生类产品需求X14、医疗旅游服务质量X24和周边已购买人数占比X32的优势比系数(Exp(β))分别为0.522、1.764、0.655,这说明西安游客对上述种需求分别增加1,西安游客购买海南医疗旅游产品的意愿就增加0.522、1.764、0.655。从优势比系数结果来看,医疗旅游服务质量X24对西安游客购买意愿的影响结果相对较大。
注意:有些时候为了对逻辑回归进行说明还会有一张图,但是这个图应该不是通过SPSS画的
#医学二元逻辑回归分析
定义
二元logistic回归属于非线性回归分析的一种,因变量为二分类变量,自变量可以是连续变量也可以是分类变量。
一般医学二元逻辑回归分析前需要进行单因素分析,用单因素分析中有显著影响或者p<0.2的作为自变量。
样本量一般要是自变量的5-10倍。因变量的阳性变量(一般是实验组,结果为是的)不能低于总样本量的15%。
操作
具体操作如下:spss-分析-回归-二元逻辑回归,具体操作步骤如下:
配置自变量和因变量
本次自变量中有分类变量也有连续变量,首先需要对分类变量进行配置。点击分类按钮进行分类变量配置。
把分类变量配置到分类协变量中,选择参考类别(参考类别中的最后一个和第一个是指分类变量的最大值和最小值,相当于我们是选最小值作为参考变量还是选择最大值作为参考变量),一般分类变量的最小值都是0(0是第一个),作为参考变量,例如是否住院,一般设置为0表示没有,1表示有,这里0就是分类变量的最小值也是第一个,它一般也作为参考变量。
勾选好参考类别,点击变化量按钮完成,多个分类变量需要多次选择。这里我的分类变量均选择第一个作为参考类别。
点击保存按钮,勾选概率和组成员。
点击选项按钮,勾选霍斯默-莱梅肖拟合优度和EXP(B)的置信区间95%
点击确定完成配置
结果解读
这个是因变量编码,这里显示CRE以0作为编码,CSE用1来编码(注意因变量编码一定是阴性的用0编码,阳性的用1编码)
这个是分类变量编码,这里左边标记的0.000就是我们的参考类别,这里对应的右边的0,也就是说我们的参考类别是0(这里因为我没有对变量进行赋值所以显示的还是0)。这里也是我们上面对分类变量配置的结果。
这里是拟合效果的结果,这里的原假设是本模型和真实数据拟合效果良好,所以这里的显著性水平为0.483 > 0.05所以接受原假设,所以我们的拟合效果良好。
最终的回归方程结果,这里的Exp(B)就是我们常说的OR值。这里年龄为连续变量,显著性水平为显著的,这里说明年龄每增长1岁则是因变量CSE的概率下降0.052倍。是否入住ICU 为分类变量,参考变量为没有入住,这里结果也是显著的,结果说明入住ICU和没有入住ICU(参考变量)是CSE的概率的0.081倍。
多元有序逻辑回归分析
多元有序逻辑回归分析是指因变量为多元的分类变量,且元素超过2,且元素之间有等级区分。比如因变量购买意愿,元素为不想买、想买,很想买这三个元素。首先因变量为分类变量,且分类的元素超过2,且元素之间有等级区分。多元有序逻辑回归可以算是二元逻辑回归的变种,它的运行原理为把多元有序逻辑回归拆分为多个二元逻辑回归,比如因变量购买意愿有三个元素,可以把有三个元素的因变量,拆为元素为不想买和想买这两个元素的变量和不想买想买合在一起作为一个元素再加很想买这两个元素的变量,这样相当于做两个二元逻辑回归。
注意:有序多元逻辑回归要求因变量每个间距是相等的,就像本次因变量购买意愿的元素有点愿意和愿意之间的跨度和愿意和比较愿意之间的跨度必须是等差的。
参考资料SPSS多元有序logistic回归分析在医学统计中的运用
操作步骤
本次分析X1、X2、X3、X4、X5这五个连续变量作为因变量,Y1(愿意购买)为因变量,Y1中的有点愿意,愿意,比较愿意,非常愿意为愿意购买的的意愿程度,为有序的多元分类变量。
具体操作如下:SPSS-分析-回归-有序
其中因子指分类自变量,协变量为连续自变量,本次分析的自变量均为连续自变量没有分类自变量所以所有的自变量都在协变量中。
点击输出按钮勾选要输出的选项
注意:这里要勾选平行线检验,因为有序多元逻辑回归要求因变量每个间距是相等的,就像本次的不想买和不太想买之间的跨度和不太想买和想买之间的跨度必须是等差的,所以要进行平行线检验。
点击确定输出结果:
这里显著性,表示本次的回归分析至少有一个自变量对因变量是显著的。
这俩在多元回归分析中没有啥用,R方也不能真正代表解释程度,只是为了和线性回归保持一致而已。
这里的平行线检验的显著性为0.140 > 0.05说明模型满足平行线检验(即各元素间的跨度是等差的),所以我们下面的参数估计表才是有效的,如果平行线检验的显著性< 0.05则说明模型不满足平行线检验我们下面的参数估计也是失真的了。
这里主要看显著性和估算着两个指标,如图发现X2,X3,X5是显著的X1,X4为不显著的。X3的系数为1.171是最大的说明它对因变量的影响是最大的。
注意:有序多元回归模型只能在不同程度的元素进行对比分析,但是对有和无,是和否这种是不能分析的,比如因变量元素只能是不同的购买意愿登记,而不能是不想买和想买之间进行分析。这种一般需要先分析想买和不想买之间的回归分析,再对不同程度的想买进行分析。
自变量存在无序分类变量的线性回归分析
参考资料
SPSS进行线性回归中分类变量哑变量的设置
回归分析时何时设置哑变量
定义解释
线性回归分析要求因变量为数值型连续变量,但自变量可以为无序分类变量,由于分类变量和连续变量不同没有元素间没有大小关系,也不能通过一个系数来解释各元素之间的变化对因变量的影响,因此需要对分类变量某一个元素设置为参照组,剩余元素和参照组对比。
有一个分类变量为种族因变量为婴儿体重,变量值为白人/黑人/其他人,为无序多分类资料(赋值分别是1、2、3)。如果该变量纳入回归模型,怎么解读回归系数b值呢?那么就是自变量从1到2对y的影响和从2到3影响的平均值。也就是白人到黑人,黑人到其他人种变化带来的影响的平均值。这个结果无法说明任何问题,既不能说明黑人相对白人出生缺陷的严重性,也不能说其他人种的影响。这个变量是无序分类变量,各变量之间没有等级关系。因此,取平均值没有任何实际意义。
因此,无序多分类变量不能直接纳入回归开展分析。
对于种族的影响,其实研究最想知道的是,(1)相对白人,黑人出生缺陷风险会提升多少? (2)相对白人,其它人种出生缺陷风险会提升多少? 因此,一个变量需要回答两个问题,最好的办法是把这个变量分为两个子变量,分别计算b值和OR值,这个子变量便是哑变量。
一般情况下,哑变量个数是原变量分类数的n-1个,比如种族变量是3分类变量,则一个种族变量产生了2个二分类(变量值为0、1)哑变量。这些哑变量是过程性变量,一般不体现在原始数据库中,但它们作为实体变量代替原变量进入到回归模型中
其中,b1反映的是相对于白人,黑人对y的影响,b2反映的是相对于白人,其他人种对y的影响。从而解决了无序分类变量回归系数b值无法进行取平均值的尴尬局面。
在SPSS中的操作
设置哑变量
这里一之前对分娩过程的了解作为分类变量进行设置,对分娩的了解这一分类变量的元素有不了解、一般了解、非常了解这三个元素,从实际考虑把一般了解作为参考变量,把之前对分娩过程的了解这一三元素分类变量拆分为不了解、非常了解这两个子变量。在SPSS-转换-重新编码为不同变量。
把要转换的分类变量之前对分娩过程的了解配置到数字变了——>输出变量中,由于要输出不了解和非常了解两个变量,这里先配置不了解这一子变量,所以输出变量中的名称为不了解,再点击变化量。再点击旧值和新值配置输出变量(不了解)的元素。
不了解在分类变量之前对分娩的了解中的编码为1和2(1和2均指不了解),在不了解这一子变量,把原来代表为不 了解的值(1,2)均转换为1,如图所示,旧值输入在之前对分娩的了解这一变量中代表不了解的值,新值就是在不了解这一变量中要转换为的值(一般转换为1)。
这里把原来的代表不了解的1和2均转换为1具体配置如图
结果如下:
把旧值中不是1和2的元素全部转换为0,勾选所有其他值,新值为0,点击添加按钮。
结果如下:
完成新旧值的转换点击继续,再点击确定,完成变量不了解的配置,结果如下:
原变量
新增变量
可以看出新增变量中为1的均是在原变量元素为1和2的,原变量的其他元素在新变量均被转换为0。这样我们就把新变量不了解给配置好了。
同样的方式配置非常了解这一变量。
结果如下:
原变量
新变量
这样就完成了之前对分娩的了解这一分类变量的子变量设置。
进行线性回归分析
在SPSS-分析-回归-线性
因变量为陪产体验,自变量为根据之前对分娩的了解这一分类变量配置的两个子变量,点击确定完成配置。
结果如下:
对结果进行整理:
从图中可以看出不了解和非常了解相与一般了解相比在陪产体验上没有显著差异。
逐步回归分析
多元线性回归是考察多个自变量对一个因变量的影响情况的。然而,当自变量的个数太多的时候,自变量之间的混杂干扰会非常严重,从而直接影响回归模型运算结果的准确性。因此,当回归模型的自变量多于8个时候,建议使用逐步线性回归分析。
具体操作如下:
在SPSS-分析-回归-线性
这里因变量为再次购买意愿,自变量为各种满意度(自办理超过8个使用逐步回归分析),方法改为步进。
结果如下:
下图表示逐步一共做了五步,第一不做了售后满意度,第二步在售后满意度的基础上引入使用满意度,依次类推,第五步为在第四步的基础上又引入了销售人员满意度,没有继续引入其他的变量是因为其他的满意度均不显著
这个图是模型摘要只需要看最后一行的结果就行,可以看到随着引入的变量越多R方越高,因为如果引入的变量不能提高R方则不会引入这个变量。
此表也只用看最后一行就可以了
由于使用的步进回归法所以引入的自变量一定是显著的(不显著的不会引入),这里也只用看第五部分就可以了。
结果处理如下: