lucene-词干分析与保留空位和停用词

停用词处理与词干提取

最新推荐文章于 2025-02-12 21:05:38 发布

原创最新推荐文章于 2025-02-12 21:05:38 发布 · 708 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#token #string #class #null

搜索引擎与人工智能专栏收录该内容

217 篇文章

订阅专栏

本文介绍了一种自定义分析器实现方法，该分析器能够移除文本中的停用词并应用词干提取技术。通过PositionStopFilter类剔除停用词，并保持其原来位置的增量，同时使用PorterStemFilter进行词干过滤。此外，还讨论了如何在查询中考虑停用词导致的空缺。

1、分析器可以剔除所有停用词，并将这些词本来所处的位置留空，还可以对词干过滤器进行选择

2、移除停用词

public class PositionStopFilter extends TokenFilter{

private Set stopWords;

publicPositioinStopFilter(TokenSteam in,Set stpWords){

super(in);

this.stopWords=stopWords;

}

public final Token next()throws IOException{

int increment=0;

for(Token token=input.next();token!=null;token=input.next()){

if (!stopWords.contains(token.termText())){

token.getPositionIncrement()+increment;

return token;

}

increment++;

}

return null;
}

3、自己定义的分析器

public class PositionalPorterStopAnalyer extends Analyer{

private Set stopWords;

publicPositionalPortStopAnalyer(){

this(StopAnalyzer.ENGLISH_STOP_WORDS);

}

publicPositionalPortStopAnalyzer(String[] stopList){

stopWords=stopFilter.makeStopset(stopList);

}

//下面的代码使用了词干还原PorterStemFilter

public TokenStreamtokenStream(String fieldName,Reader reader){

return new PorterStemFilter(

new PositionalStopFilter{

new LowerCaseTokenizer(reader),stopwords));

}

)

}

4、使用PharseQuery允许查询的短语有空缺，但是必须使用setPhraseSlop(n)进行设置，将空缺设置为n，空缺一般是停用词造成的。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

deepfuture

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

lucene-analyzers-smartcn-7.7.0-API文档-中文版.zip

07-13

赠送jar包：lucene-analyzers-smartcn-7.7.0.jar；赠送原API文档：lucene-analyzers-smartcn-7.7.0-javadoc.jar；赠送源代码：lucene-analyzers-smartcn-7.7.0-sources.jar；赠送Maven依赖信息文件：lucene-...

精选资源

lucene-core-7.7.0-API文档-中文版.zip

07-13

赠送jar包：lucene-core-7.7.0.jar；赠送原API文档：lucene-core-7.7.0-javadoc.jar；赠送源代码：lucene-core-7.7.0-sources.jar；赠送Maven依赖信息文件：lucene-core-7.7.0.pom；包含翻译后的API文档：lucene...

参与评论您还未登录，请先登录后发表或查看评论

java lucene 实现分词和词干抽取

03-14

用java实现的，利用了lucene里面的standardAnalyzer分析器实现的分词，可以去停用词，再利用波特算法实现词干提取最后排序和词频统计输出

[Lucene] 使用Lucene创建自定义的词干分析器

RangerWolf的专栏

02-06

443

代码主要来源：《Collective Intelligence 实战》 Lucene版本： 4.6.1 原来的代码是基于2.2写的，很多东西已经变了。现在用4.6.1重现实现一遍 package impl; import java.io.IOException; import java.io.Reader; import java.io.StringReader;...

Lucene分词器，使用中文分词器，扩展词库，停用词

xiaomin1991222的专栏

11-10

560

停止词：lucene的停止词是无功能意义的词，比如is 、a 、are 、”的”，“得”，“我” 等，这些词会在句子中多次出现却无意义，所以在分词的时候需要把这些词过滤掉。扩展词库：就是不想让哪些词被分开，让他们分成一个词。同义词：假设有一个电子商务系统，销售书籍，提供了一个搜索引擎，一天，市场部的人要求客户在搜索书籍时，同义词就是比如输入“电子”，除了展示电子相关的...

Lucene分词停用词库stopwords

weixin_34341117的博客

07-03

315

2019独角兽企业重金招聘Python工程师标准>>> ...

Lucene分词器实现停用词，常用词

weixin_46422238的博客

09-27

487

在resources文件夹下创建IKAnalyzer.cfg.xml来声明停用词，常用词创建utf-8格式的 ext_dict.txt 和 ext_stopword.txt 放在与IKAnalyzer.cfg.xml同一目录下如果格式不对可以使用记事本打开然后另存为UTF-8格式

精选资源

jieba-lucene-analiysis:jieba的lucene中文分析器和令牌生成器

05-10

jieba-lucene-analysis是将jieba分词库与Apache Lucene搜索引擎库相结合的项目，旨在为Lucene提供更适应中文处理的分析器和令牌生成器。这个项目的主要目的是解决在Lucene中对中文文本进行索引和搜索时的效率和准确...

精选资源

je-analysis-1.5.3、lucene-core-2.4.1分词组件

12-31

通过合理地集成和配置这两个组件，开发者可以构建出高效、准确的文本搜索系统，服务于各种业务场景，如搜索引擎、数据分析和智能问答等。在实际项目中，应根据具体需求选择合适的分词策略和Lucene版本，以实现最优的...

lucene-core-7.2.1-API文档-中文版.zip

07-12

赠送jar包：lucene-core-7.2.1.jar；赠送原API文档：lucene-core-7.2.1-javadoc.jar；赠送源代码：lucene-core-7.2.1-sources.jar；赠送Maven依赖信息文件：lucene-core-7.2.1.pom；包含翻译后的API文档：lucene...

搜索引擎的分词列表Lucene-stopwords.rar

10-10

在开发apache的lucene框架的时候，如果你要编写自己的分析器的话，就要考虑到停止词的处理。

lucene英文分词器（StandarAnalyzer）中会被忽略的词（stopWords）

tinysakura的博客

09-16

2871

使用Lucene进行索引查询时发现有一部分词会被分词器直接忽略掉了，被忽略的分词称为stopWords,在英文中通常是一些语气助词或者无法表达明确含义的词。在定义含有stopWords分词器的时候都会指定stopWords，如果没有指定可以引用默认的stopWords，在StandardAnalyzer、StopAnalyzer和ClassicAnalyzer分词器中stopWords是 ...

文本预处理技巧：去除停用词、词形还原、词干提取等

qq_33578950的博客

04-07

1万+

文本预处理是自然语言处理中非常重要的一步，它是为了使得文本数据能够被机器学习模型所处理而进行的一系列操作。其中，去除停用词、词形还原、词干提取等技巧是比较常用的。本文将介绍这些技巧的原理，并提供使用Python实现的代码示例，帮助读者更好地理解和实践。

写一点应用关于 Lucene.Net,snowball的重新组装（一）在Lucene.Net中加入词性标注与词根还原功能...

weixin_33895016的博客

08-18

161

作者:finallyliuyu （资料使用，博文引用请您表面出处）本专题是有关借助于Lucene.Net工具如何对英文文章进行分词，词性标注，词根还原的。如果是借助于Lucene.net框架对中文进行分词，词性标注，那么原理上更简单。我在《也谈贝叶斯分类C#版》中给出了如何在Lucene中嵌入河北理工大学吕震宇老师(根据张华平老师的ICTCLAS分词开源版本改写成)的sharpICT.需...

lucene学习二：lucene分词器

荒唐的程序猿

06-24

3390

分词器的作用: 在创建索引时会用到分词器，在使用字符串搜索时也会用到分词器，这两个地方要使用同一个分词器，否则可能会搜索不出结果。Analyzer（分词器）的作用是把一段文本中的词按规则取出所包含的所有词。对应的是Analyzer类，这是一个抽象类，切分词的具体规则是由子类实现的，所以对于不同的语言（规则），要用不同的分词器在全文。本文介绍几种常见的分词器，目前运用最多的是庖丁解牛，当然还有许多第

全文检索之lucene的优化篇--分词器

mojolang

01-16

2614

在创建索引库的基础上，加上中文分词器的，更好的支持中文的查询。引入jar包je-analysis-1.5.3.jar,极易分词.还是先看目录。建立一个分词器的包,analyzer,准备一个AnalyzerTest的类.里面的代码如下,主要写了一个testAnalyzer的方法,测试多种分词器对于中文和英文的分词;为了可以看到效果,所以写了个analyze()的

系统学习Lucene全文检索技术（四）

zhouth94的博客

06-06

411

一、索引维护 1、需求管理人员通过电商系统更改图书信息，这时更新的是关系数据库，如果使用lucene搜索图书信息，需要在数据库表book信息变化时及时更新lucene索引库。管理人员对数据库中的数据改变时，不仅仅是操作数据库中的数据，还需要把数据库中最新的数据同步到索引库；同步到索引库之后，消费者搜索查询到的数据才是最新的。 2、添加索引调用 indexWriter.addDocument（doc）添加索引。入门程序的创建索引 //7.写入文档到索引库 for.

自然语言处理NLP入门 -- 第二节预处理文本数据