自然语言处理-学习笔记①
1.概要
2.文本预处理作用及其主要环节
- 作用:
文本语料在输送给模型前一般需要一系列的预处理工作,才能符合模型输入的要求,例如:将文本转化为模型所需要的张量,规范张量的尺寸,而且科学的文本预处理环节将会有效的知道模型超参数的选择,提升模型的评估指标. - 环节:
- 文本处理的基本方法
- 文本张量的表示方法
- 文本语料的数据分析
- 文本特征处理
- 数据增强方法
2.1文本处理的基本方法:
2.1.1分词
- jieba的使用
- 精确模式分词
- 适合将句子最为精确的切开,适合文本分析
import jieba
content = "工信部女干事每月经过下属科室都要亲口交待24口交换机等技术性器件的安装工作"
#将返回一个生成器对象
jieba.cut(content,cut_all=False)
<generator object Tokenizer.cut at 0x000001DE14573660>
#直接返回列表内容,使用jieba.lcut即可
jieba.lcut(content,cut_all=False)
[‘工信部’,
‘女干事’,
‘每月’,
‘经过’,
‘下属’,
‘科室’,
‘都’,
‘要’,
‘亲口’,
‘交待’,
‘24’,
‘口’,
‘交换机’,