PPT正文:
SAS中的分类与聚类
分类(classification)
找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。
分类
聚类(clustering)
聚类是指根据“物以类聚”的原理,将本身没有类别的样本聚集成不同的组,并且对每一个这样的组进行描述的过程。
分类的方法
简单向量距离分类法
贝叶斯分类
KNN(K 近邻)算法
极大似然法
逻辑回归
贝叶斯分类
贝叶斯定理公式:P(A|B)=P(B|A)*P(A)/P(B)
条件概率公式:
P(A|B) = P(AB)/P(B)
贝叶斯分类
现有两个容器,在容器一里分别有 7 个红球和 3 个白球,在容器二里有 1 个红球和 9 个白球,现已知从这两个容器里任意抽出了一个球,且是红球,问这个红球是来自容器一的概率是多少?
假设已经抽出红球为事件 B,从容器一里抽出球为事件 A,则有:P(B) = 8 / 20,P(A) = 1 / 2,P(B | A) = 7 / 10,按照公式,则有:P(A|B)=(7 / 10)*(1 / 2)*(20/8)=7/8
分类—SAS实现
Discrim:对于每个观测都含有一个或多个定量变量和一个定义观测组的分类变量的观测数据集,确定一个判别准则把每个观测分入其中一组。
例子
用卫星遥感可以分辨作物的种类。CROPS是训练数据集,其中包含了作物的实际种类(CROP)和四种遥感指标变量(