情感分析badcase分析

最新推荐文章于 2025-09-01 11:18:22 发布

原创

最新推荐文章于 2025-09-01 11:18:22 发布 · 4.7k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#情感分析 #文本分类

该博客分析了情感分析训练数据集，发现存在重复样本和超小簇问题，可能导致欠拟合。训练数据由酒店、财经和微博评论组成，经过word2vec+DBSCAN处理得到5861个类别。测试模型textcnn，准确率为0.8295，负面和中性的情感分类表现不佳，特别是负面召回率不足0.85。进一步抽样分析了不同情感组合的误判情况。

训练数据集：有157637条，主要由酒店评论数据10000条、财经（主要是股市类）评论数据、微博评论数据（社会类、闲聊）

训练集数据存在重复：去重后有150875

训练集分布：正面：负面：中性占比为：

训练集使用word2vec+DBSCAN 后有5861个类，详细统计如下：

类别	定义	样本数	簇个数
大簇	超过3000个样本	3470	1
中等簇	大于1000小于3000	13775	8
小簇	大于100小于1000	76051	305
微小簇	大于32小于100	31986	565
超小簇	大于1小于32	31381	3514