
`significant_terms` 聚合是 Elasticsearch 中一种用于发现文档中显著(或异常)词汇的聚合方法。它主要用于分析一个给定的数据集与另一个参考数据集之间的词汇分布差异。这个聚合可以用来识别那些在特定文档集合中出现频率异常高或低的词汇,从而帮助用户理解这些文档的独特性。
### 工作原理
`significant_terms` 聚合通过计算每个术语的统计显著性来工作。它基于这样一个假设:如果某个术语在目标数据集中比在背景数据集中更频繁地出现,那么这个术语对于目标数据集来说可能是重要的或者是有特殊意义的。聚合会计算每个术语的得分,该得分反映了该术语在目标数据集中的重要性。
### 统计方法
`significant_terms` 聚合使用了多种统计测试来确定术语的重要性,包括但不限于:
- **G值** (G-value):这是一种基于似然比检验的方法,用于比较两个比例之间的差异。
- **卡方检验** (Chi-squared test):用于检测两个变量之间是否存在关联。
- **JLH得分** (JLH score):这是一个简单的得分函数,考虑了术语的频率和文档频率。
### 使用场景
- **异常检测**:识别文档中异常的或者不寻常的术语。
- **关键词提取**:从大量的文本数据中自动提取关键词。
- **内容分析**:帮助理解特定文档集合的内容特征,比如分析新闻文章、社交媒体帖子等。
### 配置参数
使用 `significant_terms` 聚合时,可以通过以下参数进行配置:
- `field`:指定要聚合的字段。
- `size`:限制返回的显著术语的数量。
- `include` 和 `exclude`:用于包含或排除特定的

最低0.47元/天 解锁文章
2920

被折叠的 条评论
为什么被折叠?



