文本聚类评估指标purity,RI,R,P,F1,F5

参考nlp原文https://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-clustering-1.html#fig:clustfg3

假设一个集合中有N篇文章,如图,一共有17篇

cluster1中主要的元素为‘x’,cluster2中主要的元素为‘o’,cluster3中主要的元素为‘菱形’

purity=(每个cluster主要元素数目和)/总样本数=(5+4+3)/17

 

TP:同一类文章被分到同一个簇

TN:不同类文章被分到不同簇

FP:不同类文章被分到同一个簇

FN:同一类文章被分到不同簇

Rand Index度量正确的百分比

RI=(TP+TN)/(TP+FP+FN+TN)=C(2,N)   (可用于验算下面求得数据是否正确)=136

TP+FP=(文章被分到同一个簇的组合)=(每个cluster中选两个相加)=C(6,2)+C(6,2)+C(5,2)=40

TP=(同一类在每个簇中的组合情况)=C(5,2)+C(4,2)+C(

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值