
搜索引擎
实战
大树1993
这个作者很懒,什么都没留下…
展开
-
ElasticSearch—集群搭建完整流程
ES安装java环境下载解压后台启动: $ES_HOME/bin/elasticsearch -d验证: localhost:9200ES集群搭建vim $ES_HOME?config/elasticsearch.yml#集群名称cluster.name:#节点名称node.name:#是否有成为master的资格node.master:#是否是数据节点node.data:#数据存放路径path.data:#日志存放路径path.logs:#对外公开访问ne原创 2020-07-24 12:40:58 · 407 阅读 · 0 评论 -
ElasticSearch—文档间的关系
对象类型概述将一个对象作为文档字段的值,对象类型更适合处理一对一的关系,且简单容易使用缺点在系统内部,对象之间没有边界,因此存放对象数组(一对多)时查询多个字段可能出现意外的结果更新一个单独的对象需要重新索引整篇文档嵌套类型(nested)概述在Lucene层面将不同的对象分隔到不同的文档,解决了对象类型一对多的对象之间无边界问题ElasticSearch将根文档,文档字段的数组对象分别索引到不同的文档,并将他们放在同一个单独的分块开启跨对象的匹配incl原创 2020-07-24 12:30:53 · 337 阅读 · 0 评论 -
ElasticSearch—聚集检索
聚集分类度量型: 即常见的聚合操作桶型: 将匹配文档切分为多个桶,返回每个桶里面的文档数量度量聚集高级统计对查询返回的匹配文档集合进行聚合计算,是绝对准确的stats/extended_stats: 对数值型字段同时获取sum,avg,max,min,value_count等聚集结果近似统计包含百分位好人基数两种近似统计方式,牺牲一定程度的准确性换取性能提升百分位(percentiles):获取小于测量值的累计百分比,50%的百分位最不准确,越接近0或100越准确基数(ca原创 2020-07-24 12:19:36 · 154 阅读 · 0 评论 -
ElasticSearch—相关性
文档打分确定文档和查询相关程度的过程称为打分,ES使用了TF-IDF(词频——逆文档频率)和向量空间模型结合的算法进行打分词频(TF) : 分词出现在当前文档中的次数,次数越多得分越高逆文档频率(IDF) : 分词出现在不同文档的文档数量,文档数量越少得分越高boosting概述用来修改文档相关性,包含两种方式,可以在索引或查询时提升文档得分boots参数值不是精确的乘数,计算得分时boots值是被标准化的,更多的应该考虑和其他字段的相对值索引期间bootsing的缺点原创 2020-07-24 12:09:52 · 324 阅读 · 0 评论 -
ElasticSearch—分析器
分析器组成部分 字符过滤 使用字符过滤器将特定字符转变为其他字符序列,例如可以将&转为and 分词器 根据空格,换行等符号将文本切分为一个个单词 分词过滤器 对每个分词使用分词过滤器,将分词进行修改,添加或删除,例如常用的小写分词过滤器 分词索引 分词经历了分词过滤器就会被发送到Lucene进行文档的索引 使用分析器的方式 创建索引时,为特定的索引进行设置分析器 ES配置文件中设置原创 2020-07-24 11:53:47 · 257 阅读 · 0 评论 -
ElasticSearch—curd操作
官网描述手动创建索引curl -XPUT 'hdp01:9200/index_name'获取映射约束curl 'hdp01:9200/index_name/_mapping/type_name?pretty'检索文档curl 'hdp01:9200/index_name/_serach?q=hello&pretty'curl 'hdp01:9200/index_name/_serach?q=name:tom&pretty'更新文档curl -XPOST原创 2020-07-24 11:45:36 · 211 阅读 · 0 评论 -
ElasticSearch—深入理解术语
ES是构建在ApacheLucene上的开源分布式搜索引擎 逻辑设计 索引(index):类似数据库 类型(type):类似数据的表,6.0+只支持单类型,7.0删除类型 文档(document):面向文档,这也意味着索引和搜索数据的最小单位是文档,类似数据库的行 字段(field):字段的类型定义称为映射约束 物理设计——分片 一个分片就是一个Lucene索引,一个包含倒排索引的目录 ...原创 2020-07-24 11:12:47 · 128 阅读 · 0 评论 -
ElasticSearch—Spark整合
官网描述maven依赖<dependency><groupId>org.elasticsearch</groupId><artifactId>elasticsearch-hadoop</artifactId><version>x.x.x</version></dependency>环境配置val conf = new SparkConf().setAppName("elastic")原创 2020-07-24 10:07:25 · 449 阅读 · 0 评论 -
ElasticSearch—Transport客户端API
官网描述添加maven依赖<dependency><groupId>org.elasticsearch.client</groupId><artifactId>transport</artifactId><version>x.x.x</version></dependency>获取客户端//集群名称如果不是"elasticsearch",则必须配置集群名称Settings settings =原创 2020-07-23 12:39:46 · 466 阅读 · 0 评论