Yaha分词库

最新推荐文章于 2025-09-12 15:58:40 发布

weixin_34383618

最新推荐文章于 2025-09-12 15:58:40 发布

阅读量121

点赞数

CC 4.0 BY-SA版权

文章标签： python 人工智能

原文链接：https://my.oschina.net/dancing/blog/155223

2019独角兽企业重金招聘Python工程师标准>>>

前言

因为想弄一个小小的电影搜索站，以及想提取某一个QQ技术群聊天的关键字与自动生成关键的聊天记录的摘要，所以研究了不少分词库，以及提取关键字，自动生词，自动摘要等的算法实现。整个研究过程非常有意思，其中的一些小的代码组件可在这里得到：http://www.oschina.net/code/list_by_user?id=1180874

期间在使用Whoosh与一些分词库结合使用的时候，大体不错，但总是出现各种与个人不适应的地方。比如python的结巴分词，感觉这个项目的作者很不错，开发也挺认真，效果也还可以。但在一些share host下加载字典直接超出内存范围，消耗的内存太大；同时测试了HMM模型，感觉只能发现两个两个的词，对新词的发现效果不是很好。从而萌生了想实现一个方便大家去定制的分词库——哑哈分词

可定制的分词库——Yaha（哑哈）分词

在线测试地址：http://yaha.v-find.com/ 部署于GAE yahademo.appspot.com

Yaha分词主要特点是把分词过程分成了4个阶段，每个阶段都可以让用户加入自己的一些定制，以面向不同的用户需求。这是一个最简单真白的示例：

# -*- coding=utf-8 -*-
import sys, re
from yaha import Cuttor, RegexCutting, SurnameCutting2, SuffixCutting

str = '唐成真是唐成牛的长寿乡是个1998love唐成真诺维斯基'
cuttor = Cuttor()

# Get 3 shortest paths for choise_best
#cuttor.set_topk(3)

# Use stage 1 to cut english and number
cuttor.set_stage1_regex(re.compile('(\d+)|([a-zA-Z]+)', re.I|re.U))

# Or use stage 2 to cut english and number
#cuttor.add_stage(RegexCutting(re.compile('\d+', re.I|re.U)))
#cuttor.add_stage(RegexCutting(re.compile('[a-zA-Z]+', re.I|re.U)))

# Use stage 3 to cut chinese name
#surname = SurnameCutting()
#cuttor.add_stage(surname)

# Or use stage 4 to cut chinese name
surname = SurnameCutting2()
cuttor.add_stage(surname)

# Use stage 4 to cut chinese address or english name
suffix = SuffixCutting()
cuttor.add_stage(suffix)

seglist = cuttor.cut(str)
print ','.join(list(seglist))

#seglist = cuttor.cut_topk(str, 3)
#for seg in seglist:
# print ','.join(seg)

阶段讲解

stage 1是在分句中实现，通过正则可直接将数字或英文单词分成独立的词，生成独立的这些词不再参与下一步的分词。
stage 2在创建有向无环图之前实现，对分句进行预扫描，加入一些可能形成的词，并赋予一定的概率。
stage 3在创建有向无环图期间实现，从字典得到词的概率，或通过一些匹配模式得到可能的词，赋予一定概率。
stage 4在得到有向无环图的最大概率之后（程序实现当中是最短路径），对一些不能成词的单字再继续进行处理；或得到最短的多条路径之后，根据用户的兴趣得到最终的一条路径。若用户有兴趣，可以在这一步实现对词性的分析。