分类模型
预处理:生成虚拟变量
逻辑回归
对于因变量为分类变量的情况,我们可以使用逻辑回归进行处理。
把y看成事件发生的概率,y>0.5表示发生;y<0.5表示不发生
线性概率模型
两点分布(伯努利分布)
定义是指值域
连续函数的取法
求解方法
确定分类
举例 判断水果的种类
第一步:导入数据
第二步:预处理
虚拟变量不需要这么多,保留1个即可
这里选择把第一列和第三列删去
第三步:求解逻辑回归
第四步:分析
19个苹果样本中,预测出来为苹果的有14个,预测出来的正确率为73.7%;
19个橙子样本中,预测出来为橙子的有15个,预测出来的正确率为78.9%;
对于整个样本,逻辑回归的预测成功率为76.3%.
其中表格里面新增的两列分别为
特殊情况处理
自变量有分类变量
(1)先创建虚拟变量,然后删除任意一列以排除完全多重共线性的影响;
(2)直接点击分类,然后定义分类协变量,Spss会自动帮我们生成
预测结果较差
可在logistic回归模型中加入平方项、交互项等
加入后的结果
弊端:过拟合
对于样本数据的预测非常好,但是对于样本外 的数据的预测效果可能会很差。
如何确定合适的模型
把数据分为训练组和测试组,用训练组的数据来估计出模型,再用测试组的数据来进行测试
比例一般设置为8:2
注意:为了消除偶然性的影响,可以对上述步骤多重复几次, 终对每个模型求一个平均的准确率,这个步骤称为交叉验证
Fisher线性判别分析
LDA(Linear Discriminant Analysis)是一种经典的线性判别方法,又称Fisher判别分析
该方法思想比较简单:给定训练集样例,设法将样例投影到一维的直线 上,使得同类样例的投影点尽可能接近和密集,异类投影点尽可能远离
核心问题 寻找线性系数向量
SPSS操作
结果