
ElasticSearch
文章平均质量分 61
elasticsearch
成长的小牛233
不辜负每一份热爱
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
bm25中调参因子
BM25提供两个调参因子k1:这个参数控制着词频结果在词频饱和度中的上升速度。默认值为 1.2 。值越小饱和度变化越快,值越大饱和度变化越慢。词频饱和度可以参看下面官方文档的截图,图中反应了词频对应的得分曲线,k1 控制 tf of BM25 这条曲线。b:这个参数控制着字段长归一值所起的作用, 0.0 会禁用归一化, 1.0 会启用完全归一化。默认值为 0.75 。在 字段长归一化 中,我们提到过 Lucene 会认为较短字段比较长字段更重要:字段某个词的频度所带来的重要性会被这个字段长度抵消,但原创 2021-01-09 16:15:34 · 224 阅读 · 0 评论 -
elasticsearch实战篇
1.新建SpringBoot项目依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 https://maven.apache原创 2020-10-10 18:20:24 · 380 阅读 · 0 评论 -
ElasticSearch入门篇
文章目录控制台RESTFULL操作REST风格说明基于REST命令说明:es支持的数据类型核心数据类型ik分词器使用ik_smart最少切分ik_max_word最细粒度创建索引通过创建文档方式,自动创建索引库索引库创建控制台RESTFULL操作使用工具Cerebro v0.8.3REST风格说明一种软件架构风格,而不是标准,只是提供了一组设计原则和约束条件。主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简介,更有层次,更易于实现缓存等机制基于REST命令说明:meth原创 2020-11-13 14:47:57 · 846 阅读 · 0 评论 -
elasticsearch高级查询进阶
文章目录数据:索引mappings:准备数据:查询1.constant_score查询-不考虑文档频率得分,与搜索关键字命中更多的返回结果2.sort排序-分数相同情况下,按照指定价格域排序3.不考虑文档频率TF/IDF情况下,不同域打分权重不同进行召回4.不考虑文档频率TF/IDF情况下,不同域打分权重不同,再加上制定field的分数,最后最终得分返回,eg:title^3+content^1+time5.不考虑TFIDF得分,同一区域下,不同品牌权重不同6.如何基于地理位置查询,并且类似于自如租房查找周原创 2021-01-14 14:10:10 · 769 阅读 · 0 评论 -
ElasticSearch聚合查询
文章目录聚合分组求和平均值分析每种颜色下每种品牌的平均价格更多的metric学习Cardinality(唯一值)stats 一个聚合,输出多值查询+聚合分析查询聚合+全局聚合 深入聚合数据分析_global bucket:单个品牌与所有品牌销量对比过滤+聚合:统计价格大于1200的电视平均价格统计最近一个月的平均价格按照每种品牌的平均价格排序聚合分组select * from table order by title.keyword{ "size": 0, "aggs": { "gro原创 2021-02-23 23:07:11 · 512 阅读 · 0 评论 -
elasticsearch亿级数据量全量索引导入优化方案
Hbase scan读取时候,调大scannerTimeout超时时间 将全表扫描作为父线程,其他子线程录入数据到es时候,需要查询redis、hbase其他信息表、json索引数据组装等等,录入时间永远小于扫描时间,此时需要调大扫描过期时间,不然会抛出如下异常 org.apache.hadoop.hbase.UnknownScannerException: org.apache.hadoop.hbase.UnknownScannerException: Unknown scanner '479原创 2021-02-06 00:07:43 · 1740 阅读 · 0 评论