Datawhale《深度学习-NLP》Task2- 基本文本处理技能,语言模型,文本矩阵化

4. 参考 结巴分词介绍和使用:GitHub - fxsjy/jieba: 结巴中文分词

 

基本文本处理

1. 分词

分词的正向最大

如果叫成最长正向分词要更形象一些,是一种分治+贪婪的思想,并不一时处理全部串,而是分别处理预先设立长度的每一段,在每一段中求取最长的并且出现在字典里面的词。例如:abcdef,预先设立的最大长度为3。所以,先从串的开始截取长度为三的子串,即abc,如果abc出现在字典中,那么abc将作为分词结果,接着以相同方式处理def;如果abc没出现在字典里面,则从右边减少一个字符,再次匹配字典,即ab匹配,减少的字符将加入之前未选择的字符集里面作下一次匹配,这里是cdef,如果一个串没匹配到长度大于1的字典词,则返回最左边的字符作为该串的分词结果,也就是ab如果没有匹配到,无论a是否在字典中,都将作为分词结果。过程如图:

è¿éåå¾çæè¿°

正向伪代码
result = []
right_seq = input_seq
while True:
    select_seq,left_seq = get_select_seq(right_seq)
    seg_word,seg_word_right = selectMaxLenInDict(select_seq)
    result.append(seg_seq)
    right_seq = seg_word_right+left_seq
    if right_seq=="":
        break

def selectMaxLenInDict(_seq):
    for idx in range(len(select_seq),1,-1):
        word = select_seq[0:idx]
        if word in dict:
        return word,select_seq[idx:]
    return select_seq[0:1],select_seq[1:]

def get_seg_seq(_seq):
    if maxlen > len(_seq):
        return _seq,""
    return _seq[0:maxlen],_seq[maxlen:]

分词的逆向最大

有了正向最大分词,逆向就很好理解了,正向是从前向后选取最大长度的串,然后从选取串的尾部向前匹配字典词,删除右边的字符。逆向最大便是从后向前选取最大长度的串,从选取串开始向后匹配字典词,而删减的也便是左边的字符。

逆向伪代码
result = []
right_seq = input_seq
while True:
    left_seq,select_seq = get_select_seq(right_seq)
    seg_word,seg_word_right = selectMaxLenInDict(select_seq)
    result.append(seg_seq)
    right_seq =left_seq+ seg_word_right
    if right_seq=="":
        break

def selectMaxLenInDict(_seq):
    for idx in range(0,len(select_seq)):
        word = select_seq[idx:]
        if word in dict:
        return select_seq[0:idx],word
    return select_seq[0:-1],select_seq[-1]

def get_seg_seq(_seq):
    if maxlen > len(_seq):
        return _seq,""
    return _seq[0:maxlen],_seq[maxlen:]

分词的双向最大匹配法

双向就是结合正向最大和逆向最大的结果,对两个结果进行比较,从而决定正确的分词方式,当前向和逆向分词数量不相等的时候,选择数量较少的那个分词结果。如果分词数量相同,则依次比较分词结果,相应位置如果分词相同,则选取为最后的结果中,如果相应位置分词结果不一样则选取字符较少的那个最为分词结果
 

说明:

正向、逆向、双向最大分词是最基本的分词方法,但分词准确性并不很高,常常是作为分词的Baseline使用。这类方法的实现比较简单,其中,可以利用字典树(Tire Tree)来实现,可参见:

http://blog.youkuaiyun.com/yangyan19870319/article/details/6399871的实现方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值