文本预处理

第二章 文本预处理

1 认识文本预处理

  • 【文本预处理及作用】

    所处阶段:数据输入到模型之前
    作用:数据清洗、指导超参数的确定,,,
    
  • 文本预处理的主要环节

    1.文本处理的基本方法:分词、NER、POS
    2.文本张量的表示方法:one-hot、word2vec、wordEmbedding
    3.文本语料的数据分析:标签数量分析(类别不均衡问题)、句子长度分析、词频统计和关键词词云
    4.文本特征处理:添加n-gram特征、文本长度规范
    5.数据增强方法:回译数据增强
    

2 文本处理的基本方法

【文本处理的基本方法有几种】

分词、pos、ner(2步,第一步命名实体的边界识别,序列标注任务,就是token级别的分类;第二步,对span进行分类,可以看做是句子级别的分类。)

2.1 分词

  • 分词的
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

EmbodiedTech

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值