GTAnalyzer-lucene中文分词

最新推荐文章于 2024-08-20 17:18:05 发布

wuda0112

最新推荐文章于 2024-08-20 17:18:05 发布

阅读量1.1k

点赞数

CC 4.0 BY-SA版权

分类专栏： lucene 文章标签： lucene中文分词 java中文分词

本文链接：https://blog.youkuaiyun.com/wuda0112/article/details/17075685

lucene 专栏收录该内容

4 篇文章

订阅专栏

本文介绍了一种使用树形结构进行高效中文分词的算法，该算法支持任意长度的词汇分词，并能有效消除歧义。算法包含正向匹配分词法，且提供了针对前缀匹配的功能，适用于LUCENE分词和独立Java分词组件应用。性能测试显示，加载28万个单词平均用时9秒，分词速度平均为110万中文字/秒。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

此分词算法主要来源于：http://xiecc.blog.163.com/blog/static/14032200671110224190/

源码svn地址：http://code.taobao.org/svn/gtanalyzer/trunk

可以使用svn下载源代码

  1.词典使用树形结构保存，每一个字符占一个树的节点，相同前缀的词在同一棵子树中

 2.使用了正向匹配分词法，但是不受词长限制，可以是任意长度的词
 3.消除歧义，比如：中华人民共和国，可以分为：中华人民共和国/中华人民/人民共和国/人民/共和/共和国;前提是你的词典中有这些词
 4.这个组件不光是lucene的中文分词实现，也是一个独立的java分词组件，不依赖任何jar包，具体的分词在com.wuda.segmentation包下
 5.util包中的CharacterTree.java的findPrefix提供根据前缀找单词的功能，这个可以用于搜索框的输入提示功能
 
测试结构：
 我的是联想E420电脑，加载28万个单词
 1.加载平均用时9秒；
 2.分词速度平均110万中文字/秒，平均2100KB/S
 3.随机查找5866个前缀，共用时190ms,平均用时0.032390043ms,包括了排序，提供的排序接口可以是升序或者降序
 

使用：
 1.如果只用于lucene分词，则只需
 a）Analyzer analyzer = new GTAnalyzer();
主要是基于lucene4.0开发，不同版本可能有可能不兼容
 
b）可以在src目录下新增一个gt.properties文件，用于配置自定义词典位置和句分隔符,默认有提供词典。
 
2.如果只用于前缀匹配：
 a）CharacterTree tree = new CharacterTree(); //生成空词典
 b）tree.load(resource); 或者 tree.add(word); //加载单词
 c）PriorityLinkedQueue<Word> queue=new PriorityLinkedQueue<Word>(10,Order.DESC);//降序队列
 d）tree.findPrefix(prefix, queue); //前缀查找
 e）queue.next() //获取元素

2）如果是作为独立的java分词组件：
 a）CharacterTree tree = new CharacterTree(); //生成空词典 
 b）tree.load(resource); 或者 tree.add(word); //加载单词
 c）Segmenter seg = new GTSegmenter(dic); //分词实例
 d）List<Token> tokens= seg.seg(str); // 执行分词