常见中文分词比较

最新推荐文章于 2023-09-21 16:12:46 发布

最新推荐文章于 2023-09-21 16:12:46 发布 · 156 阅读

文章标签：

#人工智能

本文详细解析了Lucene和Solr在处理中文文本时的分词策略，包括内置的三种中文分词方法：一元分词、二元分词和基于语义的分词，并对比了它们之间的差异。此外，文章还介绍了Solr自带的中文分词工厂和过滤器，如CJKTokenizerFactory、ChineseTokenizerFactory和ChineseFilterFactory，并提供了它们与Lucene分词方法的对应关系。

原文出处：http://blog.youkuaiyun.com/aidayei/article/details/6675886

对于英文文档，其分词的过程很简单。中文文本的分类难度较大，主要是因为汉语分词问题的困难，即为此需要建立完整的汉语概念体系、汉语语法、语义和语用分析是十分复杂的。

lucene包自带的三种中文分词：

以“我是中国人”这句话作分词举例

1.StandardAnalyzer：我－是－中－国－人
2.CJKAnalyzer：我是－是中－中国－国人
3.SmartChineseAnalyzer：我－是－中国－人

第一种是一元分词，第二种是二元分词，第三种应该比较复杂了，没看源码，我猜应该是根据中文语义来分的，有兴趣的可以去详细看看源码

solr自带的中文分词，solr.CJKTokenizerFactory，solr.ChineseTokenizerFactory和solr.ChineseFilterFactory

solr.CJKTokenizerFactory对应于lucene中的CJKAnalyzer，是二元分词
solr.ChineseTokenizerFactory对应于lucene中的StandardAnalyzer，是一元分词
solr.ChineseFilterFactory被StopFilterFactory取代，看名字应该知道是停用词过滤

下面这两种还没得及看，不知道是不是也和lucene中的SmartChineseAnalyzer对应呢

org.apache.solr.analysis.SmartChineseSentenceTokenizerFactory

org.apache.solr.analysis.SmartChineseWordTokenFilterFactory

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

iteye_15898

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

精选资源

baidu.rar_ baidu_dictionary_中文分词_中文分词词典_分词词典

09-14

词性标注可以帮助区分动词、名词、形容词等不同类型的词汇，而词频则反映了词汇在语言中的常见程度，有助于优化分词效果。 中文分词的方法主要有基于词典的分词、基于统计的分词和基于深度学习的分词。基于词典的...

精选资源

中文分词词库整理.7z

06-30

中文分词是自然语言处理（NLP）领域中的基础任务，它是将连续的汉字序列切分成具有语义意义的词语序列。在这个“中文分词词库整理.7z”压缩包中，包含的可能是一个精心整理的中文词汇集合，用于支持各种中文分词算法...

参与评论您还未登录，请先登录后发表或查看评论

关于几种中文分词的比对

江夏lz的博客

12-06

321

目前lucene自身提供的StandardAnalyzer已经具备中文分词的功能，但是不一定能够满足大多数应用的需要。另外网友谈的比较多的中文分词器还有： CJKAnalyzer ChineseAnalyzer IK_CAnalyzer（MIK_CAnalyzer）还有一些热心网友自己写的比较不错的分词器在此就不说了，有兴趣的可以自己研究研究。以上三个中文分词器...

常用中文分词- 整理收集

伏龙的专栏

11-24

2837

常用中文分词1. 庖丁解牛分词包，适用于与Lucene整合。http://www.oschina.net/p/paoding 庖丁中文分词库是一个使用Java开发的，可结合到Lucene应用中的，为互联网、企业内部网使用的中文搜索引擎分词组件。 Paoding填补了国内中文分词方面开源组件的空白，致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文

NLP中文分词工具比较

qq_39161216的博客

05-06

710

NLP中文分词工具比较四款python中中文分词的尝试。尝试的有：jieba、SnowNLP（MIT）、pynlpir（大数据搜索挖掘实验室（北京市海量语言信息处理与云计算应用工程技术研究中心））、thulac（清华大学自然语言处理与社会人文计算实验室） https://blog.youkuaiyun.com/gdh756462786/article/details/79102642 ...

中文分词和二元分词综合对比

Jason的专栏

07-06

1344

为了测试中文分词和二元分词的差异，现将初步的测试数据做了对比。关于二元分词可以参考车东先生的相关文章。采用中文分词每1M产生1.55M的索引文件，膨胀率1.55；每1M用时大约10秒；采用二元分词每1M产生2.21M的索引文件，膨胀率2.21；每1M用时大约7秒；从搜索结果来看，两者可以大致相同数量的搜索结果（显示结果根据相关度排列顺序不同）。

五百多万常见中文分词，搜索引擎elasticsearch可直接使用

最新发布

02-22

### 五百多万常见中文分词，搜索引擎Elasticsearch可直接使用 #### 知识点概述本资料提供了一份详尽的中文词汇库，共计五百多万个常见中文词语，旨在为基于Elasticsearch的搜索引擎提供更精准、高效的中文分词...

分词词库_中文分词词库最新整理（TXT格式）

10-30

中文分词是自然语言处理中的一个基础任务，它是指将连续的汉字序列切分成具有语义意义的词汇序列的过程。与英文等其他语言相比，中文没有明显的单词界限，因此中文分词是进行后续自然语言处理任务（如文本分类、情感...

精选资源

中文分词数据集.zip

02-28

中文分词是自然语言处理（NLP）领域中的基础任务，它是将连续的汉字序列切分成具有语义意义的词语序列。在这个“中文分词数据集.zip”压缩包中，包含了一个专门用于训练中文分词模型的数据集。下面将详细讨论中文...

常用中文分词软件

txdyhs的博客

02-24

2137

SCWS:基于词频词典的机械中文分词引擎 ICTCLAS:最早的中文开源分词项目 HTTPCWS:基于http协议的开源中文分词系统，将取代之前的PHPCWS中文分词扩展庖丁解牛分词：仅支持Java语言，且提供lucence（一款流行的Java全文搜索引擎）接口 CC-CEDICT：提供一份以汉语拼音为中文辅助的汉英词典，其词典可以用于中文分词，Chrome中文版就是使用这个词典进行中文...

中文分词效果对比

weixin_33862041的博客

04-29

298

2019独角兽企业重金招聘Python工程师标准>>> ...

Lucene总结（四）：使用Lucene进行中文分词和高亮显示

k7c9。

05-07

516

前面一直说的都是英文的查询，但其实常用的还是中文查询，中文和英文又是不一样的，当然底层的原理都是一样的。所以这一篇讲解中文分词和高亮显示。 中文分词 首先要准备一个中文的分词器的jar包。 <dependency> <groupId>org.apache.lucene</groupId> <artifactId>lucene-a...

用于Lucene的各中文分词比较

chs_jdmdr的专栏

03-16

2万+

用于Lucene的各中文分词比较作者: Claymore　时间: 2011-09-09 17:53:26 Arial Tahoma Verdana 宋体楷体字体减小字体加大对几种中文分析器，从分词准确性和效率两方面进行比较。分析器依次为：StandardAnalyzer、ChineseAnalyzer、 CJKAnalyzer、IK_CAna

lucene3.0 中文分词实例IKAnalyzer StandardAnalyzer

hpjianhua的专栏

04-08

328

之前想做lucene的中文分词，上网一搜，结果都是针对lucene2.x的，于是就写了一实例针对lucene3.x版本的，以下仅为学习交流之用; 时间仓促，实例示下： [code="java"] package com.hpjianhua.lucene; import java.io.IOException; import java.io.Reader; import ja...

深度学习文本预处理利器：Tokenizer详解

十年以上架构设计经验，专注于软件架构和人工智能领域，对机器视觉、NLP、音视频等领域都有涉猎

09-21

3万+

Tokenizer是一个用于向量化文本，将文本转换为序列的类。计算机在处理语言文字时，是无法理解文字含义的，通常会把一个词（中文单个字或者词）转化为一个正整数，将一个文本就变成了一个序列，然后再对序列进行向量化，向量化后的数据送入模型处理。

数仓工具—Hive实战之UDF分词(1)