分类样本不均

本文探讨了在实际应用中如何处理分类器面临的样本不均衡问题,提出了多种解决方案,包括针对各类别样本数量的调整策略、采用不同评估指标以及通过数据增强丰富稀少类别的样本。

实际使用分类器的时候,经常遇到分类样本不均衡的问题。而只有分类样本较为均衡,才可以达到比较好的分类效果。

1、如果各个类别的样本数量都非常多,则对于样本少的类,使用全部样本。

而对于样本多的类,进行采样。采样可以随机采样,或者如果有某一类别里,有一部分数据非常接近,比如奈雪的茶、koi在茶饮里占了几百家,对于这部分采样的时候,要比总体采样比例低。

也即尽可能的让样本丰富。

 

2、如果样本少的类,样本过于少,则可以使用召回率或者F1,而非准确率进行评测。

3、在文本分类的时候,我们可以通过复制多份少类样本,并且乱序,比如:“我知道了,谢谢”。 和“谢谢,我知道了”,

或者去除停用词与不去除停用词,“我工作上有很多事情要处理” 和“我的工作上有很多的事情要处理”,他们意思是一样的。思想类似于在图像识别时,如果样本比较少,就使用平移、旋转等手段丰富样本。

 

转载于:https://www.cnblogs.com/yjybupt/p/10683820.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值