一、 机器学习概述
1.1 监督学习与无监督学习
监督学习:基于给定的数据数据与分类训练分类器以期达到比较好的分类效果。(Logistic回归、决策树、SVM)
无监督学习:根据数据进行建模,对样本进行分类(通过对无标记训练样本的学习来揭示数据的内在性质以及规律,为进一步的数据分析提供基础)。
1.2 聚类
聚类属于无监督学习的一种。通过将数据集中的样本划分为若干个不想交的子集实现对样本的分类,其中每个子集称为一个簇。
二、性能度量
2.1 定义 :
聚类的性能度量:评估聚类结果的好坏。
2.2 目标:
簇内相似度高,簇间相似度低
2.3 指标分类:
外部指标:将聚类结果与某个参考模型进行比较。
内部指标:直接考察聚类结果。
2.4 常用指标:
外部指标:
其中
|.|表示集合元素个数,各集合意义如下:
由于每个样本仅能出现在一个集合中,且 i<j
故:
2.4.1 Jaccard系数:
刻画同时属于C和C*的样本对占同一类样本对的比值。
2.4.2 FM指数:
刻画C、C*中样本中同时属于C和C*样本比例的几何平均。
2.4.3 Rand指数:
刻画同时属于C、C*和同时不属于C、C*占总样本的比例。
2.4.4 ARI指数:
外部指标性能度量结果属于[0,1]之间,值越大,聚类性能越好。
内部指标: