走近 ElasticSearch (二)——Document概念、倒排索引原理与分词介绍

本文详细介绍了Elasticsearch中的Document概念,包括数据类型、创建与查询方法。接着探讨了倒排索引的原理,强调其在搜索引擎中的重要性,并解析了倒排索引的构建过程。最后,文章讲解了分词的基本概念,分析了分词器的组成、调参方法及常见种类,为Elasticsearch的全文检索提供基础。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、前言

(知识搬运工
走近 ElasticSearch (一)——基本概念与架构设计
走近 ElasticSearch (二)——Document概念、倒排索引原理与分词
走近 ElasticSearch (三)——Mapping设计与Search API 介绍

二、Document 介绍

1. Document 数据类型

Json Object,由字段(Field)组成,常见数据类型如下:

  • 字符串: text, keyword
  • 数值型: long, integer, shot, byte, double, float,haf_float, scaled_float
  • 布尔: boolean
  • 日期: date
  • 二进制: binary
  • 范围类型: integer_range, float_range, long_range, double_range, date_range, ip_range
  • 还有其他数据类型:
    • 嵌套类型: nested
    • 对象类型: object
    • 数组类型: Array
    • 地理类型: geo_point, geo_shape
    • 自动补全类型: completion
    • 多字段特性:multi-fields

2. Document 创建

每个文档有唯一的 id 标示。两种方式:自行指定;es自动生成
以es自动生成索引为例:
在这里插入图片描述在这里插入图片描述
文档元数据解释:

  • _index: 文档所在的索引名
  • _type: 文档所在的类型名
  • _id: 文档唯一id
  • _uid: 组合 id, 由 _type 和 _id 组成(6.x _type 不再起作用, 同_id一样)
  • _source: 文档的原始 Json 数据,可以从这里获取每个字段的内容
  • _all: 整合所有字段内容到该字段
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值