# -*- coding: utf-8 -*-
"""
Created on Thu Nov 22 15:28:42 2018
NLP learning
@author: jack
"""
class IMM(object):
def __init__(self,dic_path):
self.dictionary = set()
self.maximum= 0
with open(dic_path,'r',encoding = 'utf-8') as f:
for line in f:
line = line.strip()
if not line:
continue
self.dictionary.add(line)
self.maximum = len(line)
#逆向最大匹配
def cut1(self,text):

该博客介绍了词库分词算法的三种方法:逆向最大匹配法、正向最大匹配法和双向最大匹配法,并通过Python实现了一个名为IMM的类来演示这些方法。在逆向最大匹配法中,从文本末尾开始查找最长的词;正向最大匹配法则从文本开头查找;双向最大匹配法结合两者,选择结果较长的一种。以'南京长江大桥'为例,展示了如何使用这些方法进行分词。
最低0.47元/天 解锁文章
4032

被折叠的 条评论
为什么被折叠?



