- 博客(4)
- 收藏
- 关注
原创 kafka核心原理及数据积压问题
磁盘查询策略: 顺序查找 和 随机查找 那个效率快呢?通过这种机制 可以保证数据不丢失, 但是可能存在重复消费的问题。如何实现点对点的消息模型 和 发布订阅的消息模型。如何提交偏移量信息呢?index文件中存储了什么?何为生产者的数据分发机制呢?
2023-04-01 17:47:10
1038
原创 kafka介绍及消息队列
何为消息队列呢?消息: 本质上就是数据 , 而且这个数据存在一种流动状态, 从某一端传递到另一端队列: 本质上就是容器, 可以存储数据, 只不过这个容器具备 FIFO(先进先出) 特性消息队列: 指的就是 将消息数据放置到队列, 通过队列实现数据传输的特性, 从队列的一端写入, 从另一端输出, 保持FIFO特性 kafka是一款消息队列的中间件的产品, 来源于领英公司, 后期将其贡献给了apache 目前是apache旗下的顶级来源项目, 采用语言是scala。
2023-04-01 16:37:25
517
原创 Hive SQL-DDL、DML
分桶表也是一种优化表,可以**减少join查询时笛卡尔积的数量**、提高抽样查询的效率。分桶表的字段必须是表中已有的字段;分桶表需要使用间接的方式才能把数据加载进入:insert+select在join的时候,针对join的字段进行分桶,可以提高join的效率 减少笛卡尔积数量。
2023-03-19 20:52:32
203
原创 数据仓库Apache Hive
Hive是Facebook开源出来,后来贡献给力Apache .宗旨是:提高分析数据的能力降低分析数据的开发成本。如果不一致,hive会尝试进行转换,但是不保证成功,如果不成功显示null。猜想1:只要在hive中创建表,那么在HDFS就会有一个文件夹与之对应。数仓本身不生产数据也不消费数据,按照数据流入流出的特点,对平台进行分层。最基础最核心的3层架构,企业实际应用中,可以结合需要添加不同分层。注意:在某些场合下,说ORACLE也是OLAP系统,如何理解?在此过程中,Hive做了什么?
2023-03-18 21:07:21
404
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人