基于词库的分词算法:正向最大匹配法,逆向最大匹配法,双向最大匹配法

该博客介绍了词库分词算法的三种方法:逆向最大匹配法、正向最大匹配法和双向最大匹配法,并通过Python实现了一个名为IMM的类来演示这些方法。在逆向最大匹配法中,从文本末尾开始查找最长的词;正向最大匹配法则从文本开头查找;双向最大匹配法结合两者,选择结果较长的一种。以'南京长江大桥'为例,展示了如何使用这些方法进行分词。

# -*- coding: utf-8 -*-
"""
Created on Thu Nov 22 15:28:42 2018
NLP learning
@author: jack
"""

class IMM(object):
    def __init__(self,dic_path):
        self.dictionary = set()
        self.maximum= 0
        
        with open(dic_path,'r',encoding = 'utf-8') as f:
            for line in f:
                line = line.strip()
                if not line:
                    continue
                self.dictionary.add(line)
                self.maximum = len(line)
    #逆向最大匹配        
    def cut1(self,text):
     

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值