数据库-Elasticsearch进阶学习笔记(分片、映射、分词器、即时搜索、全文搜索等(2)

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以点击这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

了解字段类型之后,给不同的字段自定义数据类型,创建索引时进行指定。

PUT my-index
{
  "mappings": {
    "properties": {
      "city": {
        "type": "text",
        "fields": {
          "raw": { 
            "type":  "keyword"
          }
        }
      }
    }
  }
}

properties添加字段,fields使一个字段在不同类型搜索时是否可分析
city字段全文检索
city.raw字段是city的keyword版本,可被用于排序和聚合操作。
接下来先了解字段等概念,之后再配合搜索对映射进行深入理解。

常见数据类型
  • boolean:true、false
  • Numeric:
    • byte:8位有符号整数
    • short:16位有符号整数
    • integer:32位有符号整数
    • long、unsigned_long:有(无)符号64位整数
  • Keywords:
    • keyword:用于结构化内容,例如 ID、电子邮件地址、主机名、状态代码、邮政编码或标签。
    • constant_keyword:始终包含相同值的关键字字段。
    • wildcard:非结构化,机器生成的长数据
  • date:日期,可使用format自定义
  • Range:
    • integer_range:32位有字符整数,-231 ~ 231-1
    • long_range:64位有符号整数
    • double_range:64位IEEE754类型浮点数
    • date_range:日期,可以使用format自定义格式
    • ip_range:ipv4和ipv6均支持
  • Text:
    • text:全文,一般是会进行分析和分析,邮件正文,商品描述等
    • match_only_text:空间优化,禁用评分,适合日志消息。

文档(document)

  • _index:文档存放在的索引
  • _type:文档表示的对象类别,之前与关系型数据库的table对应,现在不再强调这个
  • _id:文档唯一标识
  • _version:版本,更新文档时,该字段会改变
  • _source:数据

领域特定语言 (DSL)

使用 JSON 构造了一个请求。包含了filter range过滤器。

分词器

在全文检索情况下,对text等类型分词,方便建立倒排索引。常见的分词器有

  • ik分词器
  • icu分词器
  • smartcn分词器
  • pinyin分词器
    更多分词器见参考,es官方github上有一些。腾讯云可支持大部分插件,点击ES集群->插件列表。如下图所示。
得分排序

按照相关性得分排序,一般使用TF-IDF算法(见参考,本文主要还是在ES实践方面,算法不赘述),通过_score返回得分

后台执行的操作

  • 分配文档到不同的容器 或 分片 中,文档可以储存在一个或多个节点中
  • 按集群节点来均衡分配这些分片,从而对索引和搜索过程进行负载均衡
  • 复制每个分片以支持数据冗余,从而防止硬件故障导致的数据丢失
  • 将集群中任一节点的请求路由到存有相关数据的节点
  • 集群扩容时无缝整合新节点,重新分配分片以便从离群节点恢复

深入搜索(实践)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值