长尾问题:少量类别占据了绝大多数样本,大量类别仅有少量的样本。这种极端的不平衡对分类精度造成了巨大的挑战,尤其是尾部类
长尾问题导致:训练后的模型容易偏向训练数据量大的头类,导致模型在数据量有限的尾类上表现不佳,决策边界的偏差,模糊的特征表示
类别的极度不平衡导致模型学习非常容易被“头部”类别主导而产生过拟合;同时模型对于“尾部”数据的建模能力极其有限,从而在模型测试阶段表现出对长尾数据(尤其“尾部”数据)预测精度不理想的缺陷。特别是在借助深度学习模型进行的视觉识别应用中,尾部数据的数量缺失还使得深度模型的训练难以充分进行,导致特征学习很难达到理想程度,进而影响整个深度模型的泛化表现。
参考: