文本分析入门(二)

本文介绍了中文文本分词的三种基本方法:正向最大匹配法、逆向最大匹配法和双向最大匹配法,探讨了它们的工作原理和优缺点。通过对不同方法的比较,强调了双向最大匹配法在消除歧义和提高分词准确性方面的优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

还是先上新概念。

分词

我们在做文本挖掘的时候,要对文本做的预处理首先就是分词。对于英文来说,因此单词之间天然有空格隔开,因此可以按照空格分词(但也有需要把多个单词做成一个分词的时候)。而对于中文来说,由于没有空格,那么分词就变成了一个需要专门去处理去解决的问题。

我们现在的分词都是基于统计来分词。对于一个良好的分词系统来说应该由词典和统计两套系统组成。统计,是为了给词典不断可持续地更新,不断加入新词。在分词的过程中,首先,一个良好的词典很重要;其次,算法要跟着需求,跟着应用场景走,针对不同的需求我们应该选择不同的算法。

下面介绍几个简单的分词方法:

正向最大匹配法
逆向最大匹配法
双向最大匹配法
正向最大匹配法:

从前往后去词,每次减少一个字,直到分词系统的词典命中分词或只剩下一个字。

首先,机械匹配分词法分为增字匹配法和减字匹配法。增字法一般与最小匹配相结合,即从一个字开始增加,而减字法常与最大匹配相结合。(这应该不难理解)因此正向最大匹配法采用减字匹配法较为常见

下面举例来源网络:
第1次:“我们在野生动物”,扫描7字词典,无
第2次:“我们在野生动”,扫描6字词典,无
。。。。
第6次:“我们”,扫描2字词典,有
扫描中止,输出第1个词为“我们”,去除第1个词后开始第2轮扫描,即:
第2轮扫描:
第1次:“在野生动物园玩”,扫描7字词典,无
第2次:“在野生动物园”,扫描6字词典,无
。。。。
第6次:“在野”,扫描2字词典,有
扫描中止,输出第2个词为“在野”,去除第2个词后开始第3轮扫描,即:
第3轮扫描:
第1次:“生动物园玩”,扫描5字词典,无
第2次:“生动物园”,扫描4字词典,无
第3次:“生动物”,扫描3字词典,无
第4次:“生动”,扫描2字词典,有
扫描中止,输出第3个词为“生动”,第4轮扫描,即:
第4轮扫描:
第1次:“物园玩”,扫描3字词典,无
第2次:“物园”,扫描2字词典,无
第3次:“物”,扫描1字词典,无

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值