自然语言处理实践(新闻文本分类)——task02

数据分析

句子长度分析
  1. 由赛题题目得知,赛题数据中每行句子的字符使用空格进行隔开,所以可以直接统计单词个数来得到每个句子的长度。总共有20万行数据,其中数据最长的句子有57921个单词,数据最短的句子仅有2个单词。
    在这里插入图片描述
  2. 画出直方图如下,可以看到大多句子数据在1500~3000左右
    在这里插入图片描述
新闻类别分布
  1. 统计每类新闻的样本个数,画出直方图
    在这里插入图片描述
    可以0标签的新闻数量最多,根据标签数字的大小依次递减,可以看出该数据集分布不均匀。
字符分布统计
  1. 统计整个数据集中每个字符所出现的次数。
    在这里插入图片描述

由于内存无法支持全部数据的查看,只查看了前1000个数据。
从统计结果可以看出,目前编号为3750的字出现的次数最多,这个编号所对应的字很可能是对分类无意义的字,比如你,我,他,的,了甚至是标点符号等等。可以适当降低其权重或者删去。

数据分析
  1. 每个新闻长度不一,大部分为1500~3000字符,少数极多或极少字符。
  2. 新闻类别分布不均匀,编号为0的新闻样本量较多,而编号13的新闻样本量较少,两类新闻数量差距较大。
  3. 新闻平均字符较多,可能需要截断。
  4. 类别不均衡,需要调整模型,针对性的降低权值和增大权值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值