- 博客(33)
- 收藏
- 关注
原创 大数据面试题—包含真实面经(压力拉满)
从事数据开发,手写面试题5W字,涉及hadoop、zookeeper、kafka、spark、flink、clickhouse等常见的大数据中间件,文档可以后台踢我
2024-08-19 22:51:30
718
原创 mysql索引B+树可视化演示地址
https://www.cs.usfca.edu/~galles/visualization/BPlusTree.html
2024-06-13 11:32:33
394
原创 还在纠结两种数仓建模的理论模式吗?一文帮你搞懂
企业数据仓库是企业信息化工厂的枢纽,是原子数据的集成仓库,从各种操作系统集成而来,包含一个确定的的且一致的业务活动表示法,基于原子数据的性质,该仓库尽可能地包括最底层的细节数据;企业数据仓库通常存储于关系型数据库管理系统中华,并且Inmon主张使用第三范式进行数据库设计。
2024-01-29 16:06:56
449
原创 Spark物理执行计划生成方法
Spark具体采用3个步骤来生成物理执行计划:首先根据action()操作顺序将应用划分为作业(job),然后根据每个job的逻辑处理流程中的ShuffleDependency依赖关系,将job划分为执行阶段(stage)。最后在每个stage中,根据最后生成的RDD的分区个数生成多个计算任务(task),具体如下所述。
2024-01-26 15:05:03
730
1
原创 kafka面经
消费者组:由多个消费者组成,消费者组内每个消费者负责消费不同分区的数据,一个分区只能由一个组内消费者消费,消费者组之间互不影响,所有的消费者者都属于某个消费者组分区:一个topic可以分布到多个服务器上,一个topic可以分为多个partition副本:一个topic的每个分区都有若干个副本、一个Leader(副本的主)和若干个Follower生产者发送原理:涉及两个线程,main和sender,在main中创建了一个双端队列(RecordAccumulator)。
2023-11-28 15:27:52
277
原创 Kafka基础
当一个消费者被关闭或者发生崩溃时候,就离开群组,原本由它读取的分区将由群组里的其他消费者来读取,这样的行为被称为再均衡,在再均衡期间,消费者无法读取消息,消费者通过向被指派为群组协调器的broker发送心跳,证明自己还活着,如果超过时间没有报告心跳信息,则被判定为死亡,就会触发再均衡。1、kafka可以保证分区消息的顺序,如果使用同一个生产者往同一个分区写入消息,而且消息B在消息A之后写入,那么kafka可以保证消息B的偏移量比消息A的偏移量大,而且消费者会先读取消息A再读取消息B。
2023-11-28 15:25:52
126
原创 Kafka分区分配
进行分区的键,如果key不为null,则会默认的分区器会对key的哈希取余,将结果传入到对应的分区中,若key为null,那么消息将会以轮询的方式发往主题内的各个可用的人分区。RangeAssignor:是按照消费者总数和分区总数继续宁整除运算得到一个跨度,然后将分区按照跨度进行平均分配,以保证分区尽可能均匀地分配给所有的消费者。分区分配是一个很重要的概念,当遇到分区分配时候,有三个重点——生产者发送消息、消费者消费消息、创建主题。注意:分区是在主题下有的,副本是对于分区而言的。
2023-11-28 15:21:02
118
原创 关于kafka报错“不能找到路由”Closing socket connection. Attempting reconnect except it is a SessionExpiredExcept
最后发现是三台机器之间的防火墙没有完全关闭,最后关闭三台机器的防火墙,最终kafka正常,zk正常。以为是kafka版本的问题,然后就各种安装各种版本的kafka,最后还是报错 —“不能找到路由”当启动kafka时候,一直报错不能找到路由,
2023-10-20 15:30:49
1069
1
原创 [满满的干货]大数据生态中间件常见问题描述
2.第二个是选择把什么数据输出到硬盘上,spark会根据数据计算的血缘,来判断某一个RDD对于前置数据是宽依赖还是窄依赖,如果是宽依赖,意味着一个节点的故障,可能会导致大量的数据要进行重新计算,乃至数据网路传输的要求。1.第一个是数据存储上,数据不再是存放在硬盘上,而是可以缓存在内存中,只有当内存不足的时候,才会存储在硬盘上,同时,数据的持久化,也支持硬盘,序列化后的内存存储,以及序列化后java对象的内存存储三种形式,每一种都比另一种占用更多的内存,但计算速度更快。
2023-09-14 16:59:11
469
1
大数据开发面试题,吐血整理
2024-05-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人