paoding分词

Paoding是一款使用Java开发的中文分词库,专为互联网及企业内部网搜索引擎设计,支持高效率分词处理和良好的用户体验。Paoding'sKnives中文分词组件能够在普通配置的个人电脑上实现每秒分词100万汉字的高效性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Paoding 详细介绍

庖丁中文分词库是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率和用户良好体验。

Paoding's Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。

高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。

采用基于 不限制个数 的词典文件对文章进行有效切分,使能够将对词汇分类定义。

能够对未知的词汇进行合理解析

示例代码:

//生成analyzer实例 
Analyzer analyzer = new PaodingAnalyzer(properties); 
//取得Token流 
TokenStream stream = analyzer.tokenStream("", reader); 

//重置到流的开始位置 
stream.reset(); 

//添加工具类 
TermAttribute termAtt = (TermAttribute) stream.addAttribute(TermAttribute.class); 
OffsetAttribute offAtt = (OffsetAttribute) stream.addAttribute(OffsetAttribute.class); 

//循环打印所有分词及其位置 
while (stream.incrementToken()) {
    System.out.println(termAtt.term() + " " + offAtt.startOffset() + " " + offAtt.endOffset()); 
}







参考自:开源中国 https://www.oschina.net/p/paoding



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值