机器学习之聚类(一)

一、 机器学习概述

1.1  监督学习与无监督学习

监督学习:基于给定的数据数据与分类训练分类器以期达到比较好的分类效果。(Logistic回归、决策树、SVM)

无监督学习:根据数据进行建模,对样本进行分类(通过对无标记训练样本的学习来揭示数据的内在性质以及规律,为进一步的数据分析提供基础)。

1.2  聚类

聚类属于无监督学习的一种。通过将数据集中的样本划分为若干个不想交的子集实现对样本的分类,其中每个子集称为一个簇。

二、性能度量

2.1 定义 :

聚类的性能度量:评估聚类结果的好坏。

2.2 目标:

簇内相似度高,簇间相似度低

2.3 指标分类:

外部指标:将聚类结果与某个参考模型进行比较。

内部指标:直接考察聚类结果。

2.4 常用指标:

外部指标:

 

 

其中

|.|表示集合元素个数,各集合意义如下:

 

由于每个样本仅能出现在一个集合中,且 i<j   

故:

2.4.1 Jaccard系数:

刻画同时属于C和C*的样本对占同一类样本对的比值。

2.4.2 FM指数:

刻画C、C*中样本中同时属于C和C*样本比例的几何平均。

2.4.3 Rand指数:

刻画同时属于C、C*和同时不属于C、C*占总样本的比例。

2.4.4 ARI指数:

外部指标性能度量结果属于[0,1]之间,值越大,聚类性能越好。

内部指标:

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值