训练数据集:有157637条, 主要由酒店评论数据10000条、财经(主要是股市类)评论数据、微博评论数据(社会类、闲聊)
训练集数据存在重复:去重后有150875
训练集分布:正面:负面:中性 占比为:
训练集使用word2vec+DBSCAN 后有5861个类,详细统计如下:
| 类别 | 定义 | 样本数 | 簇个数 | |
|---|---|---|---|---|
| 大簇 | 超过3000个样本 | 3470 | 1 | |
| 中等簇 | 大于1000小于3000 | 13775 | 8 | |
| 小簇 | 大于100小于1000 | 76051 | 305 | |
| 微小簇 | 大于32小于100 | 31986 | 565 | |
| 超小簇 | 大于1小于32 | 31381 | 3514 |

该博客分析了情感分析训练数据集,发现存在重复样本和超小簇问题,可能导致欠拟合。训练数据由酒店、财经和微博评论组成,经过word2vec+DBSCAN处理得到5861个类别。测试模型textcnn,准确率为0.8295,负面和中性的情感分类表现不佳,特别是负面召回率不足0.85。进一步抽样分析了不同情感组合的误判情况。
最低0.47元/天 解锁文章
2025

被折叠的 条评论
为什么被折叠?



