文本分词

本文介绍了中文文本分词的方法,包括正向最大、逆向最大和双向最大匹配法,并探讨了n-gram语言模型,重点讲解了bigram、unigram和trigram模型。此外,还提到了jieba分词库的特点,如支持自定义词典和去除停用词,以及文本矩阵化的步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 基本文本处理技能       

    英文分词,常以空格分词,中文分词较为复杂,常见方法有:正向最大、逆向最大、双向最大匹配法,这些方法是基于词典匹配而成。

正向最大:从前往后取词,每次减一个字,直至词典命中或剩下1个单字。

逆向最大:从后往前取词,每次减一个字,直至词典命中或剩下1个单子。

双向最大匹配:正向最大与逆向最大两种算法都进行一遍分词,根据词的颗粒度越大越好单字和非字典词越少越好,进行分词。

 2. 语言模型

        n-gram模型也称为n-1阶马尔科夫模型,它有一个假设前提:当前词的出现概率仅仅与前面n-1个词相关。因此(1)式可以近似为:

                                                 clip_image008

       当n取1、2、3时,n-gram模型分别称为unigram、bigram和trigram语言模型。n-gram模型的参数就是条件概率       

                                                clip_image010

      假设词表的大小为100,000,那么n-gram模型的参数数量为

                                                

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值