Elasticsearch: The Definitive Guide Learning Chapter22 Stopwrds: Performance Versus Precision

本文探讨了在信息检索中使用停用词的利弊。停用词如theand等常见词汇,在建立索引前通常会被过滤掉,以减少噪音并提升检索效率。然而,完全依赖停用词可能影响检索质量。文章分析了停用词对检索性能的影响,并提出了一种策略,即将查询字符串中的词汇分为更重要的低频词汇和较不重要的高频词汇,以提高检索的精确度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

The default English stopwords

在这里插入图片描述
These stopwords can usually be filtered out before indexing with little negative impact on retrieval.
But is is a good idea to do so?

Pros and Cons of Stopwords

在这里插入图片描述

the primary advantage

在这里插入图片描述

Using Stopwords

在这里插入图片描述

Stopwords and the Standard Analyzer

在这里插入图片描述
在这里插入图片描述

Maintaining Positions

The output from the analyze API is quite interesting:

在这里插入图片描述

Specifying Stopwords

在这里插入图片描述
在这里插入图片描述

Using the stop Token Filter

在这里插入图片描述

Updating Stopwords

Stopwords and Performance

在这里插入图片描述
在这里插入图片描述

minimum_should_match

在这里插入图片描述

Divide and Conquer

The terms in a query string can be divided into more important(low-frequency) and less-important(high-frequency) terms.
Documents that match only the less important terms are probably of very little interest. Really, we want document that match as many of the important terms as possible.

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Controlling Precision

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Only High-Frequency Terms

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

Index Options

在这里插入图片描述
在这里插入图片描述

Stopwords

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值