网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
了解字段类型之后,给不同的字段自定义数据类型,创建索引时进行指定。
PUT my-index
{
"mappings": {
"properties": {
"city": {
"type": "text",
"fields": {
"raw": {
"type": "keyword"
}
}
}
}
}
}
properties添加字段,fields使一个字段在不同类型搜索时是否可分析
city字段全文检索
city.raw字段是city的keyword版本,可被用于排序和聚合操作。
接下来先了解字段等概念,之后再配合搜索对映射进行深入理解。
常见数据类型
- boolean:true、false
- Numeric:
- byte:8位有符号整数
- short:16位有符号整数
- integer:32位有符号整数
- long、unsigned_long:有(无)符号64位整数
- Keywords:
- keyword:用于结构化内容,例如 ID、电子邮件地址、主机名、状态代码、邮政编码或标签。
- constant_keyword:始终包含相同值的关键字字段。
- wildcard:非结构化,机器生成的长数据
- date:日期,可使用format自定义
- Range:
- integer_range:32位有字符整数,-231 ~ 231-1
- long_range:64位有符号整数
- double_range:64位IEEE754类型浮点数
- date_range:日期,可以使用format自定义格式
- ip_range:ipv4和ipv6均支持
- Text:
- text:全文,一般是会进行分析和分析,邮件正文,商品描述等
- match_only_text:空间优化,禁用评分,适合日志消息。
文档(document)
- _index:文档存放在的索引
- _type:文档表示的对象类别,之前与关系型数据库的table对应,现在不再强调这个
- _id:文档唯一标识
- _version:版本,更新文档时,该字段会改变
- _source:数据
领域特定语言 (DSL)
使用 JSON 构造了一个请求。包含了filter range过滤器。
分词器
在全文检索情况下,对text等类型分词,方便建立倒排索引。常见的分词器有
- ik分词器
- icu分词器
- smartcn分词器
- pinyin分词器
更多分词器见参考,es官方github上有一些。腾讯云可支持大部分插件,点击ES集群->插件列表。如下图所示。
得分排序
按照相关性得分排序,一般使用TF-IDF算法(见参考,本文主要还是在ES实践方面,算法不赘述),通过_score返回得分
后台执行的操作
- 分配文档到不同的容器 或 分片 中,文档可以储存在一个或多个节点中
- 按集群节点来均衡分配这些分片,从而对索引和搜索过程进行负载均衡
- 复制每个分片以支持数据冗余,从而防止硬件故障导致的数据丢失
- 将集群中任一节点的请求路由到存有相关数据的节点
- 集群扩容时无缝整合新节点,重新分配分片以便从离群节点恢复