文本分类的阈值策略

位置截尾法, rank-based threshold

RCut:将文本指定给前t个类别。参数t即可以由用户指定,也可以通过预定初始值,然后给出测试文本,使用分类器进行分类,再根据分类的准确程度调整初始值。

优点:考虑了分类器的全局性能

比例截尾法, proportion-based threshold

PCut将所有测试文本与某一类别的相似度按照由高到低的顺序排序,然后将前kj

文本确定为该类别

m是类别数量,Cj代表类别j,P(Cj)是类别j的先验概率。

优点:考虑了全局的分类性能,主要以x为参数,它的值可以通过分类的准确程度来调整

最优截尾法, score-based local optimization threshold

SCut计算所有测试文本与该类别的相似度。根据最优化该类别分类器的性能来调整相应的阈值,然后将确定的阈值应用到新的待分类文本上

优点:性能优异

RTCut方法修改了RCut和SCut的不足,并将二者结合起来确定类别的阈值,使查全率和查准率达到一定的平衡。RTCut修改了RCut中存在的不足,细化了其粗粒度,下面的公式是新的计分方法:

d是待分类文本,r(c|d)是RCut中类别c的排列位置,s(c|d)是类别c的SCut阈值,而f(c|d)是类别c与文档d的新的综合分数。

优点:召回率和精确率整体表现良好。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值