Cnki数据集包装清洗

数据集清洗与分类
本文讨论了数据集的清洗及分类方法,特别是针对不平衡的数据集进行了详细的探讨,并分享了清洗过程中的一些有趣发现。

包装

  • 决定先处理好数据集训练形式等问题再清洗
  • 拿B/C/D/E/F/G/H举例,B包含10*1000篇,C包含7*1000篇,D包含10*1000篇,E:5*100,F:9*1000,G:6*1000,H:7*1000各类训练比例不均匀

清洗

  • 标题,关键词,摘要融合——-data
  • 大类分类号————————label
  • 找出stop words sets,去除
  • 剔除数字字母和标点
  • 清洗过程中发现了些很奇妙的东西@。@,比如原本4.2M的标题关键字摘要,被stopwords清洗之后只剩下2.7M。自古论文离不开八股啊!

两层分类

  • 先分出第一层
  • 实验再分第二层
  • 两层甚至可以互相反馈

整理数据

  • 已经整理好七类数据,这是大类分类使用的数据集,因为还有几类的文本尚未处理好,这是七类数据下载链接

异常

期刊数据集有点怪异,那就是论文的label不止一个,有的一篇论文有两个标签甚至三个。唉!无从下手!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值