【学习笔记】自然语言处理实践(新闻文本分类)- 数据读取与分析

Datawhale零基础入门NLP赛事-Task2

本笔记是参加Datawhale零基础入门NLP赛事的学习笔记。

数据读取

在这里插入图片描述

数据分析

  1. 文本长度分布
    在这里插入图片描述
    结论:文本的平均长度为907个字符,最长的文本有57921个字符,最短的只有两个。
  2. 文本长度直方图
    在这里插入图片描述
    结论:由图可见,绝大多数的文本长度不超过1w字符。
  3. 类别分布
    在这里插入图片描述
    结论:由上图可以得出,数量最多的是0(科技)类的文本,最少的是13(星座)类文本。
  4. 类别分布
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值