NLP文本预处理-学习笔记(1)

1.概要

学习大纲

2.文本预处理作用及其主要环节

  • 作用:
    文本语料在输送给模型前一般需要一系列的预处理工作,才能符合模型输入的要求,例如:将文本转化为模型所需要的张量,规范张量的尺寸,而且科学的文本预处理环节将会有效的知道模型超参数的选择,提升模型的评估指标.
  • 环节:
    • 文本处理的基本方法
    • 文本张量的表示方法
    • 文本语料的数据分析
    • 文本特征处理
    • 数据增强方法

2.1文本处理的基本方法:

2.1.1分词

  • jieba的使用
    • 精确模式分词
    • 适合将句子最为精确的切开,适合文本分析
import jieba
content = "工信部女干事每月经过下属科室都要亲口交待24口交换机等技术性器件的安装工作"

#将返回一个生成器对象
jieba.cut(content,cut_all=False)

<generator object Tokenizer.cut at 0x000001DE14573660>

#直接返回列表内容,使用jieba.lcut即可
jieba.lcut(content,cut_all=False)

[‘工信部’,
‘女干事’,
‘每月’,
‘经过’,
‘下属’,
‘科室’,
‘都’,
‘要’,
‘亲口’,
‘交待’,
‘24’,
‘口’,
‘交换机’,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值