原文
https://github.com/litaotao/guidetodatamining/blob/master/chapter-4.md
https://github.com/litaotao/guidetodatamining/blob/master/chapter-5.md
定义
分类器是指通过物品特征来判断它应该属于哪个组或类别的程序!分类器程序会基于一组已经做过分类的物品进行学习,从而判断新物品的所属类别。
eg: 会先计算出与这个物品距离最近的物品,然后找到用户对这个最近物品的评价,以此作为新物品的预测值。
步骤
1.我们将这些数据集分为了两个部分,第一部分用来构造分类器,因此称为训练集;另一部分用来评估分类器的结果,因此称为测试集。(如何分两部分:十折交叉验证和留一法,https://blog.youkuaiyun.com/abcd1101/article/details/90383952)
2.数据特征值选取。
2.标准化。当不同特征的评分尺度不一致时,为了得到更准确的距离结果,就需要将这些特征进行标准化,使他们在同一个尺度内波动。
3.利用特征值建立向量。
4.通过向量来计算距离,到这里为止搭建了一个分类器(计算距离可以选择曼哈顿等的距离算法)
5.使用第二部分数据来评估分类器,如果ok就来预测(其中使用了混淆矩阵来记录结果,Kappa指标来评估分类器,https://blog.youkuaiyun.com/abcd1101/article/details/90383952)
6..预测新物品的类别。
进阶的分类算法
knn(k近邻)算法:https://github.com/litaotao/guidetodatamining/blob/master/chapter-5.md#knn%E7%AE%97%E6%B3%95
ps:
1.KNN算法是分类算法,分类算法肯定是需要有学习语料,然后通过学习语料的学习之后的模板来匹配我们的测试语料集,将测试语料集合进行按照预先学习的语料模板来分类
2Kmeans算法是聚类算法,聚类算法与分类算法最大的区别是聚类算法没有学习语料集合。