学习打卡8.1

分类模型

预处理:生成虚拟变量

逻辑回归

在这里插入图片描述
对于因变量为分类变量的情况,我们可以使用逻辑回归进行处理。
把y看成事件发生的概率,y>0.5表示发生;y<0.5表示不发生

线性概率模型

在这里插入图片描述

两点分布(伯努利分布)

在这里插入图片描述
定义是指值域

连续函数的取法

在这里插入图片描述
在这里插入图片描述

求解方法

在这里插入图片描述

确定分类

在这里插入图片描述

举例 判断水果的种类

第一步:导入数据
在这里插入图片描述
第二步:预处理
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
虚拟变量不需要这么多,保留1个即可
这里选择把第一列和第三列删去

第三步:求解逻辑回归
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
第四步:分析
在这里插入图片描述
19个苹果样本中,预测出来为苹果的有14个,预测出来的正确率为73.7%;
19个橙子样本中,预测出来为橙子的有15个,预测出来的正确率为78.9%;
对于整个样本,逻辑回归的预测成功率为76.3%.

在这里插入图片描述
在这里插入图片描述
其中表格里面新增的两列分别为
在这里插入图片描述

特殊情况处理

自变量有分类变量

(1)先创建虚拟变量,然后删除任意一列以排除完全多重共线性的影响;
在这里插入图片描述
(2)直接点击分类,然后定义分类协变量,Spss会自动帮我们生成
在这里插入图片描述

预测结果较差

可在logistic回归模型中加入平方项、交互项等
在这里插入图片描述
加入后的结果
在这里插入图片描述
弊端:过拟合
对于样本数据的预测非常好,但是对于样本外 的数据的预测效果可能会很差。
在这里插入图片描述

如何确定合适的模型

把数据分为训练组和测试组,用训练组的数据来估计出模型,再用测试组的数据来进行测试
比例一般设置为8:2

注意:为了消除偶然性的影响,可以对上述步骤多重复几次, 终对每个模型求一个平均的准确率,这个步骤称为交叉验证

Fisher线性判别分析

LDA(Linear Discriminant Analysis)是一种经典的线性判别方法,又称Fisher判别分析
该方法思想比较简单:给定训练集样例,设法将样例投影到一维的直线 上,使得同类样例的投影点尽可能接近和密集,异类投影点尽可能远离
在这里插入图片描述

核心问题 寻找线性系数向量

在这里插入图片描述

SPSS操作

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

多分类问题

Fisher判别分析

SPSS操作

在这里插入图片描述

预测结果

在这里插入图片描述

Logistic回归

在这里插入图片描述

SPSS操作

在这里插入图片描述

模拟结果

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值