文本基本处理

本文介绍了文本处理中的分词技术,包括正向最大匹配算法、逆向最大匹配算法和双向最大匹配法,以及词频统计的基础知识。讨论了如何在不同匹配策略下确定最佳分词结果,并提到了一元、二元和三元分词模型的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一.

1.1.1正向最大匹配算法

从左到右将待分词文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词。但这里有一个问题:要做到最大匹配,并不是第一次匹配到就可以切分的 。我们来举个例子:

待分词文本: sentence[]={“计”,“算”,“语”,“言”,“学”,“课”,“程”,“有”,“意”,“思”}

词表: dict[]={“计算”, “计算语言学”, “课程”, “有”, “意思”} (真实的词表中会有成千上万个已经平时我们使用的分好的词语)

(1) 从sentence[1]开始,当扫描到sentence[2]的时候,发现"计算"已经在词表dict[]中了。但还不能切分出来,因为我们不知道后面的词语能不能组成更长的词(最大匹配)。

(2) 继续扫描content[3],发现"计算语"并不是dict[]中的词。但是我们还不能确定是否前面找到的"计算语"已经是最大的词了。因为"计算语"是dict[2]的前缀。

(3) 扫描content[4],发现"计算语言"并不是dict[]中的词。但是是dict[2]的前缀。继续扫描:

(3) 扫描content[5],发现"计算语言学"是dict[]中的词。继续扫描下去:

(4) 当扫描content[6]的时候,发现"计算语言学课"并不是词表中的词,也不是词的前缀。因此可以切分出前面最大的词——“计算语言学”。

1.1.2逆向最大

与正相反左从右到左匹配词表就行

1.1.3双向最大匹配法

比较正向最大匹配和逆向最大匹配结果
如果分词数量结果不同,那么取分词数量较少的那个
如果分词数量结果相同
分词结果相同,可以返回任何一个
分词结果不同,返回单字数比较少的那个

#这里用的jieba的精确模式分词,还可以用全模式,或者指定词库
def print_word_count(string_data):
    seg_list_exact = jb.cut(string_data, cut_all=False)  # 精确模式分词
    object_list = [] 
    for word in seg_list_exact:  # 循环读出每个分词
            object_list.append(word
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值