分布式存储入库过程本质上是建索引过程

最新推荐文章于 2025-10-12 18:49:40 发布

原创最新推荐文章于 2025-10-12 18:49:40 发布 · 493 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#druid #hbase #es #索引

云计算/大数据专栏收录该内容

70 篇文章

订阅专栏

博客指出能实现秒级查询的数据库，如druid、es、mysql、hbase等，借助将索引存入内存加快查询。入库即建索引，有位图和倒排两种索引。生成索引和写入数据是关键，涉及分布式存储架构。还提出学习数据库应思考数据读写方式、读写快的原因等问题。

不论对于什么数据库，druid es mysql hbase，凡是能实现秒级查询的数据库，无一不是借助将索引全部存入内存来加快索引。

所以入库的过程本质上就是建索引的过程，这个建索引过程就是有master节点发起的一个mapred任务。

索引只有两种：位图索引(druid hbase)，倒排索引（es）

当开始调用java scala版本的插入数据，或者flink sink中的插入数据，本质上就是为单条数据生成索引，并写入数据的过程。

所以生成索引和写入数据的过程是最重要的，涉及到整个分布式存储的架构，实际上写入数据过程就是一个mapred过程。

至于查询很简单，就是根据过滤条件到位图索引中检索。

查索引只是高性能的表现，本质上是因为建索引机制的高效完善。

凡所有的数据库或者分布式存储，学习过程中问自己四个问题

1.数据是如何写的，包括api函数和写数据过程。写数据本质上是由master发起一个mapred任务。

2.数据是如何读的，包括api函数和读数据过程。读的原理简单，但api一般较多。

3.为啥读快，索引原理

4.为啥写快，日志结构合并树（druid hbase）

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

千淘万漉

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

SQL（及存储过程）跑得太慢怎么办？

默默不代表沉默

09-06

2959

SPL，新的SQL处理玩法！

基于Hadoop的分布式索引构建

12-10

基于Hadoop的分布式索引构建,对了解分布式索引有一定帮助

参与评论您还未登录，请先登录后发表或查看评论

索引的分布式存储

binling的专栏

09-01

3571

一先不说分布式，先说在磁盘上索引怎么存储。在内存里，索引肯定是以BST，Trie，Hashtable等形式存在，便于查找。在磁盘上的存储呢？ 1）不要想到树的序列化问题，不一样，第一，索引是先在磁盘后load到内存里，第二，树的序列化是说要完全保存树的结构，这里不需要，只需要是一颗平衡树就行。 2）其实就是一个symbol table，词典，key-value 表，在磁盘上时候不需要有

分布式建库(索引)优化

07-13

240

1、把过滤器内置到hbase底层，只有通过过滤的数据才进入上面的流程，如果有大量的数据被过滤掉，能减少大量的io(我们能节约10几倍，性能提升了10几倍)。 2、充分使用上下行带宽，提升数据之间的同步数据(索引在多个机房创建，创建完成之后，机房之前相互同步)。 3、使用p2p同步模式，提升数据同步速度。 ...

通过Hadoop做分布式索引

技术源于生活

02-22

6377

数据库里面有千万级的数据需要做索引，开始的方案是起线程，然后每次读取一定的数量，索引，然后继续读。一开始上了四台普通的PC，1.8的CPU，1G的内存，做了10个多小时才索引完。后来换了Hadoop，同样的四台机器，只要20分钟就完成了。当然不是直接上hadoop就能提速那么多，还是需要做很多地方的调整的。第一个，先把数据库记录dump出来成为文本文件，然后放到hdfs里面，这样做的目的是

新建，删除和索引文档

Behind You！

02-09

311

新建、索引和删除请求都是写操作，必须在主分片上面完成之后才能被复制到相关的副本分片，如下图所示新建、索引和删除单个文档以下是在主副分片和任何副本分片上面成功新建，索引和删除文档所需要的步骤顺序：客户端向 Node 1 发送新建、索引或者删除请求。节点使用文档的 _id 确定文档属于分片 0 。请求会被转发到 Node 3`，因为分片 0 的主分片目前被分配在 `Node 3 上。Nod...

【云原生】SQL（及存储过程）跑得太慢怎么办？

m0_54883970的博客

07-28

199

SQL作为目前最常用的数据处理语言，广泛应用于查询、跑批等场景。当数据量较大时，使用SQL（以及存储过程）经常会发生跑得很慢的情况，这就要去优化SQL。优化SQL有一些特定的套路，通常先要查看执行计划来定位SQL慢的原因，然后针对性改写来优化SQL，比如对于连续数值判断可以用between来替代in，select语句指明字段名称，用union all替代union，把exists改写成join等。当然还有一些工程上的优化手段，如建立索引，使用临时表/汇总表等，优化的方法有很多，相信各位DBA都不会陌生。但遗

存储过程与触发器开发规范：ShenTong PL_SQL编程中的6大性能陷阱与优化建议

围绕存储过程的语法结构、控制流管理与异常处理机制，结合触发器的类型、应用场景及其引发的递归与阻塞问题，深入剖析了六类典型性能陷阱，包括行级触发器雪崩、动态SQL解析开销、游标资源泄漏等。通过实战案例提出...

三、从 MinIO 存储到 OCR 提取，再到向量索引生成

最新发布

2301_76989410的博客

10-12

685

本文手把手实现了RAG系统中的文档处理全链路，包含三个核心环节：首先使用MinIO分布式存储作为文档"保险柜"，支持多格式文件存储和高可用访问；其次通过PaddleOCR处理扫描件/图片，提取文字内容并清洗；最后采用智能分块技术将文本切割为适配大模型窗口的语义单元。系统实现了从文档上传、OCR识别、文本分块到向量化入库的自动化流程，为后续检索环节提供结构化数据支持。关键技术包括MinIO的对象存储、PaddleOCR的中文识别优化，以及基于语义的文本分块策略。

MYSQL 优化

daijianzhou的专栏

03-10

1150

MYSQL 优化 1 创建索引创建一个表 #创建一个表 CREATE TABLE `user` ( `ID` int NOT NULL, `Name` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci DEFAULT NULL, `Age` int DEFAULT NULL, `QQ` bigint DEFAULT NULL, `Phone` bigint DEFAULT NULL, `CreateTim

分布式文件存储系统的索引功能的意义

weixin_34406086的博客

08-23

228

为什么80%的码农都做不了架构师？>>> ...

lucene大索引文件分布式存储方案

weixin_30929295的博客

10-22

173

这几天实现了个Lucene分布式检索的模块，采用的分布式方案是将数据分块，分别生成N个索引文件，放到N个节点上运行。检索时，对每一个节点发出查询请求，将N个节点返回的结果归并，然后生成一个新的结果。如果没看明白，可以看看我的帖子 http://www.iteye.com/topic/212046 ，这个方案同帖子中的思想是一致的。用这样的方案，遇到的问题是归并过后的结果，同没有...

分布式索引学习

happyzara的博客

06-25

498

淘宝分布式索引构建：[url]http://www.searchtb.com/2012/04/distribute_index_build.html[/url] 一致性Hash与分布式索引： [url]http://www.cnblogs.com/lanceyan/archive/2013/05/13/3075044.html[/url] Lucene分布式索引构建介绍：[url]http...

分布式入库不用锁

chihoulu7885的博客

07-27

199

更新时候用update判断标记条件，符合条件才更新转载于:https://my.oschina.net/ironthrone/blog/1865216...

分布式索引入门

鸭梨的博客

08-05

1351

说到分布式索引时，我们在谈论什么？首先，我要说明一下谈到分布式索引，需要了解什么样的内容。你已经知道存储引擎中包含数据文件和索引文件，同时索引文件中又有索引组织表这种主要的形式。目前世界上主要的分布式数据库的数据存储形式，就是围绕着索引而设计的。为什么会这样呢？由于分布式数据库的数据被分散在多个节点上，当查询请求到达服务端时，目标数据有极大的概率并不在该节点上，需要进行一次甚至多次远程调用才可查询到数据。由于以上的原因，在设计分布式数据库存储引擎时，我们更希望采用含有索引的数据表，从而减少查询的延迟

云搜索分布式索引一致性设计

huangleijay的专栏

04-28

467

目前流行的云搜索服务的主要特点有： 1：接入快捷、运维能力强，提供了可视化运维数据、多维立体化监控和自助工具界面，实现全托管自运维。 2：服务可靠、高可用。索引系统采用多副本数据和服务冗余、不同级别的隔离、集群联邦和资源预留等容灾机制，确保高可用性。宕机时副本自动迁移、恢复服务、同步索引数据，无需手工介入，做到用户无感知。 3：文档属性丰富，搜索方式多样化。在索引服务流程中文档被嵌入了丰富信...

elasticsearch-分布式索引原理

豆豆不在了

02-15

915

查询阶段在初始查询阶段时，查询会广播到索引中每一个分片拷贝（主分片或者副本分片）。每个分片在本地执行搜索并构建一个匹配文档的优先队列。优先队列一个优先队列仅仅是一个存有 top-n 匹配文档的有序列表。优先队列的大小取决于分页参数 from 和 size 。例如，如下搜索请求将需要足够大的优先队列来放入100条文档。 GET /_se

Redis分布式存储方案

qq_52302132的博客

05-22

1929

当我们需要存储一个kv键值对时，首先计算key的hash值，hash(key)，将这个key使用相同的函数Hash计算出哈希值并确定此数据在环上的位置，从此位置沿环顺时针“行走”，第一台遇到的服务器就是其应该定位到的服务器，并将该键值对存储在该节点上。解决均匀分配的问题，在数据和节点之间又加入了一层，把这层称为哈希槽(slot)，用于管理数据和节点之间的关系，现在就相当于节点上放的是槽，槽里放的是数据。将集群中各个IP节点映射到环上的某一个位置。一致性哈希将所有的键和值以及服务器映射到一个虚拟的哈希环上。

mysql text 查询速度_数据库学习之让索引加快查询速度(四)

weixin_29958123的博客

01-27

701

数据库学习之让索引加快查询速度目录索引简介mysql的索引分类创建索引添加与删除索引索引简介索引在MySQL中也叫做"键"，是存储引擎用于快速找到记录的一种数据结构。索引对于良好的性能非常关键，尤其是当表中的数据量越来越大时，索引对于性能的影响愈发重要。索引优化应该是查询优化最有效的手段了。索引能够轻易将查询性能提高好几个数量级。索引相当于字典的音序表，如果要查某个字，如果要查某个字，如果不使用音...

PyPI发布checkio_client-0.2.10 Python库，强化Zookeeper分布式功能

Zookeeper本质上是一个分布式的小项目协调服务，它有助于维护配置信息、提供分布式锁和同步服务、进行命名服务等。 - **分布式系统**：分布式系统是由一组通过网络进行通信、为了完成共同的任务而协调工作的计算机...