包装
- 决定先处理好数据集训练形式等问题再清洗
- 拿B/C/D/E/F/G/H举例,B包含10*1000篇,C包含7*1000篇,D包含10*1000篇,E:5*100,F:9*1000,G:6*1000,H:7*1000各类训练比例不均匀
清洗
- 标题,关键词,摘要融合——-data
- 大类分类号————————label
- 找出stop words sets,去除
- 剔除数字字母和标点
- 清洗过程中发现了些很奇妙的东西@。@,比如原本4.2M的标题关键字摘要,被stopwords清洗之后只剩下2.7M。自古论文离不开八股啊!
两层分类
- 先分出第一层
- 实验再分第二层
- 两层甚至可以互相反馈
整理数据
- 已经整理好七类数据,这是大类分类使用的数据集,因为还有几类的文本尚未处理好,这是七类数据下载链接
异常
期刊数据集有点怪异,那就是论文的label不止一个,有的一篇论文有两个标签甚至三个。唉!无从下手!