4.1 文本预处理

本文详细介绍了文本预处理的重要性,包括分词(如jieba和hanlp工具的使用)、词性标注和命名实体识别在NLP中的作用和实践。分词是理解文本的基础,命名实体识别识别专有名词,词性标注提供语法信息,这些预处理步骤对提升AI模型性能至关重要。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文本预处理

1.1 认识文本预处理


  • 学习目标:
    • 了解什么是文本预处理及其作用.
    • 了解文本预处理中包含的主要环节.

  • 文本预处理及其作用:
    • 文本语料在输送给模型前一般需要一系列的预处理工作, 才能符合模型输入的要求, 如: 将文本转化成模型需要的张量, 规范张量的尺寸等, 而且科学的文本预处理环节还将有效指导模型超参数的选择, 提升模型的评估指标.

  • 文本预处理中包含的主要环节:
    • 文本处理的基本方法
    • 文本张量表示方法
    • 文本语料的数据分析
    • 文本特征处理
    • 数据增强方法

  • 文本处理的基本方法:
    • 分词
    • 词性标注
    • 命名实体识别

  • 文本张量表示方法:
    • one-hot编码
    • Word2vec
    • Word Embedding

  • 文本语料的数据分析:
    • 标签数量分布
    • 句子长度分布
    • 词频统计与关键词词云

  • 文本特征处理:
    • 添加n-gram特征
    • 文本长度规范

  • 数据增强方法:
    • 回译数据增强法

  • 重要说明:
    • 在实际生产应用中, 我们最常使用的两种语言是中文和英文, 因此, 文本预处理部分的内容都将针对这两种语言进行讲解.

1.2 文本处理的基本方法


  • 学习目标:
    • 了解什么是分词, 词性标注, 命名实体识别及其它们的作用.
    • 掌握分词, 词性标注, 命名实体识别流行工具的使用方法.

  • 什么是分词:
    • 分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符, 分词过程就是找到这样分界符的过程.

  • 举个栗子:
工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作
 
==>
 
['工信处', '女干事', '每月', '经过', '下属', '科室', '都', '要', '亲口', '交代', '24', '口', '交换机', '等', '技术性', '器件', '的', '安装', '工作']

  • 1.2分词的作用:
    评论 1
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值