参考博客:
博客一:Address class imbalance easily with Pytorch | by Mastafa Foufa | Analytics Vidhya | Medium
播客二:Address class imbalance easily with Pytorch Part 2 | by Mastafa Foufa | Towards Data Science
类不平衡
如论文所给出的结论,处理类不平衡的主要方法是过采样。过采样应被应用至完全消除类不平衡,而优化的欠采样系数取决于不平衡的程度。与一些经典的机器学习模型不同,过采样不会导致CNN网络过拟合。
假设数据集中包含两类: c l a s s 1 class_1 class1和 c l a s s 2 class_2 class2,基于均匀分布,那么从 c l a s s 1 class_1 class1中随机采样得到的概率为
p ( x ∈ c l a s s i ) = # { c l a s s i } # { t r a i n } = N c l a s s i N t r a i n p(x\in class_i)=\frac{\#\{class_i\}}{\#\{train\}}=\frac{N_{class_i}}{N_{train}} p(x∈classi)=#{
train}#{
classi}=NtrainNclassi
但是,实际可能二分类中,某一类数量远大于另一类
N c l a s s 1 ≫ N c l a s s 2 N_{class_1} \gg N_{class_2} N

本文探讨了在深度学习中如何使用PyTorch解决类别不平衡问题,并通过具体实例介绍了WeightedRandomSampler的使用方法。
最低0.47元/天 解锁文章
8269

被折叠的 条评论
为什么被折叠?



