Elasticsearch权威指南:停用词的性能与精确度权衡

Elasticsearch权威指南:停用词的性能与精确度权衡

elasticsearch-definitive-guide The Definitive Guide to Elasticsearch elasticsearch-definitive-guide 项目地址: https://gitcode.com/gh_mirrors/el/elasticsearch-definitive-guide

停用词的概念与历史背景

在信息检索的早期阶段,磁盘空间和内存资源极其有限,这与我们今天拥有的资源形成鲜明对比。当时,尽可能缩小索引体积至关重要,每节省1KB空间都能显著提升系统性能。词干提取(stemming)技术不仅用于扩展搜索范围(如同现代用法),在当时更是压缩索引体积的重要手段。

另一种缩减索引体积的方法是减少索引中的词汇量。从搜索角度看,某些词汇比其他词汇更为重要,通过仅索引关键术语可大幅降低索引体积。

词汇频率的双重性

所有词汇可大致分为两类:

  1. 低频词

    • 在文档集合中出现频率较低的词汇
    • 因其稀缺性具有较高的权重值(weight)
    • 对相关性评分贡献显著
  2. 高频词

    • 常见于大量文档中的词汇(如英语中的the、and、is等)
    • 权重值较低
    • 对相关性评分影响微弱

技术提示:频率实际上是一个连续谱系,"低频"与"高频"的划分是人为设定的阈值,具体界限取决于实际文档集合特征。

停用词的典型示例

Elasticsearch默认的英文停用词列表包含33个常见功能词:

a, an, and, are, as, at, be, but, by, for, if, in, into, is, it,
no, not, of, on, or, such, that, the, their, then, there, these,
they, this, to, was, will, with

现代环境下的停用词取舍

传统优势的式微

  • 存储空间和内存已大幅提升
  • 压缩算法效率显著提高
  • 每百万文档仅节省约4MB空间
  • 单纯为缩减索引体积而使用停用词已不再合理

保留停用词的价值

  1. 语义区分:如区分"happy"与"not happy"
  2. 专有名词:如乐队名"The The"
  3. 文学引用:如莎翁名句"To be, or not to be"
  4. 特殊编码:如挪威的国家代码"no"

性能考量

搜索场景对比

  • 搜索"fox"(假设在100万文档中出现20次):
    • 仅需计算20份文档的相关性评分
  • 搜索"the OR fox":
    • "the"可能出现在几乎所有文档中
    • 需计算100万份文档的评分
    • 性能必然显著下降

技术平衡方案

虽然停用词会影响查询性能,但Elasticsearch提供了多种技术手段:

  1. 条件性停用词过滤
  2. 常见词特殊处理
  3. 短语查询优化
  4. 混合索引策略

(后续章节将深入探讨具体实现方案)

领域特异性考量

需特别注意:

  • 中文等语言不存在显式的停用词分隔
  • 专业领域文档中常规术语可能变为高频词(如数据库领域的"database")
  • 多语言环境下的停用词差异

理解停用词的特性及其影响,是构建高效搜索系统的关键基础。现代Elasticsearch应用应当基于实际业务需求,而非历史惯例来决定停用词策略。

elasticsearch-definitive-guide The Definitive Guide to Elasticsearch elasticsearch-definitive-guide 项目地址: https://gitcode.com/gh_mirrors/el/elasticsearch-definitive-guide

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

谭妲茹

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值