第二章 文本预处理
1 认识文本预处理
-
【文本预处理及作用】
所处阶段:数据输入到模型之前 作用:数据清洗、指导超参数的确定,,,
-
文本预处理的主要环节
1.文本处理的基本方法:分词、NER、POS 2.文本张量的表示方法:one-hot、word2vec、wordEmbedding 3.文本语料的数据分析:标签数量分析(类别不均衡问题)、句子长度分析、词频统计和关键词词云 4.文本特征处理:添加n-gram特征、文本长度规范 5.数据增强方法:回译数据增强
2 文本处理的基本方法
【文本处理的基本方法有几种】
分词、pos、ner(2步,第一步命名实体的边界识别,序列标注任务,就是token级别的分类;第二步,对span进行分类,可以看做是句子级别的分类。)
2.1 分词
- 分词的