Druid基础知识(编辑中)

Druid是一款用于实时数据查询和分析的开源系统,支持PB级数据处理,具备列式存储和分布式特性。它融合了OLAP分析、时间序列和全文检索功能,与Kafka、HDFS集成,适用于Hadoop、Spark等数据源。Druid采用MVCC解决并发,数据以segments分片,支持SQL查询,拥有Historical、Broker和Coordinator节点组成的集群架构。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Druid
https://yuzhouwan.com/posts/5845/
http://druidio.cn/
实时,快速,切片,大数据(PB级),列式存储,分布式
结合了OLAP分析数据库、时间序列数据库和全文检索思想
集成kafka等消息队列和hdfs等文件系统
数据源可以使Hadoop、spark、storm和kafka等
使用mvcc解决并发问题
Druid 聚合
会将数据进行预聚合,缺点是,不能查询每条数据的明细(因为被聚合了),也就是说,聚合粒度是查询数据的最小粒度。需要提前定义。
数据分片
以segments形式分片,时间作为第一级分片,segments包含基于列的压缩和这些列的索引。
数据加载
分为实时和批处理两种,批处理用来提高精度。
数据查询
支持SQL,数据进入druid之前先join
Druid集群架构:
Historical节点:下载不变的segments到本地,并提供segments的查询服务
broker节点:链接客户端,分发查询,收集合并结果。
coordinator节点:管理集群的historical节点的segments。通知下载新的segments,删除旧的segments。
real-time处理:加载数据,创建索引(创建segments),讲segments交给historical节点。
外部依赖:
zookeeper:保证集群信息一致。metadata storage:管理元数据 deep Storage segments的永久备份。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值