GTAnalyzer-lucene中文分词

本文介绍了一种使用树形结构进行高效中文分词的算法,该算法支持任意长度的词汇分词,并能有效消除歧义。算法包含正向匹配分词法,且提供了针对前缀匹配的功能,适用于LUCENE分词和独立Java分词组件应用。性能测试显示,加载28万个单词平均用时9秒,分词速度平均为110万中文字/秒。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

此分词算法主要来源于:http://xiecc.blog.163.com/blog/static/14032200671110224190/
 
 
源码svn地址:http://code.taobao.org/svn/gtanalyzer/trunk
 
 
 
可以使用svn下载源代码
 
 
 1.词典使用树形结构保存,每一个字符占一个树的节点,相同前缀的词在同一棵子树中
 
 
 2.使用了正向匹配分词法,但是不受词长限制,可以是任意长度的词
 3.消除歧义,比如:中华人民共和国,可以分为:中华人民共和国/中华人民/人民共和国/人民/共和/共和国;前提是你的词典中有这些词
 4.这个组件不光是lucene的中文分词实现,也是一个独立的java分词组件,不依赖任何jar包,具体的分词在com.wuda.segmentation包下
 5.util包中的CharacterTree.java的findPrefix提供根据前缀找单词的功能,这个可以用于搜索框的输入提示功能
 

测试结构: 我的是联想E420电脑,加载28万个单词 1.加载平均用时9秒; 2.分词速度平均110万中文字/秒,平均2100KB/S 3.随机查找5866个前缀,共用时190ms,平均用时0.032390043ms,包括了排序,提供的排序接口可以是升序或者降序

使用: 1.如果只用于lucene分词,则只需 a)Analyzer analyzer = new GTAnalyzer();

主要是基于lucene4.0开发,不同版本可能有可能不兼容

b)可以在src目录下新增一个gt.properties文件,用于配置自定义词典位置和句分隔符,默认有提供词典。

2.如果只用于前缀匹配: a)CharacterTree tree = new CharacterTree(); //生成空词典 b)tree.load(resource); 或者 tree.add(word); //加载单词 c)PriorityLinkedQueue<Word> queue=new PriorityLinkedQueue<Word>(10,Order.DESC);//降序队列 d)tree.findPrefix(prefix, queue); //前缀查找 e)queue.next() //获取元素

2)如果是作为独立的java分词组件:

a)CharacterTree tree = new CharacterTree(); //生成空词典 

b)tree.load(resource); 或者 tree.add(word); //加载单词

c)Segmenter seg = new GTSegmenter(dic); //分词实例

d)List<Token> tokens= seg.seg(str); // 执行分词

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值