
面试必会题
文章平均质量分 93
Luke~~
这个作者很懒,什么都没留下…
展开
-
Spark面试题
在基于 Hash 的 Shuffle 实现方式中,每个 Mapper 阶段的 Task 会为每个 Reduce 阶段的 Task 生成一个文件,通常会产生大量的文件,伴随大量的随机磁盘 I/O 操作与大量的内存开销。计算每个分区时,在分区所在机器的本地上运行task是最好的,避免了数据的移动,减少数据的IO和网络传输,这样才能更好地减少作业运行时间。Spark的任务是以线程的方式运行在进程中的,MR的任务是以进程的方式运行在Yarn集群中的,开启和调度进程的代价大于线程的代价。在不需要排序的场景使用。原创 2024-06-03 11:20:48 · 612 阅读 · 0 评论 -
Kafka面试题
kafka是一个分布式消息(系统/队列),是一个集群。原创 2024-04-26 16:40:38 · 674 阅读 · 0 评论 -
Flume面试题
一个分布式、可靠、高可用的海量日志采集、聚合、传输系统。Flume面试很少问比较底层的东西,相当于是一个采集工具,会用会解决故障就好。原创 2024-04-25 15:07:52 · 879 阅读 · 0 评论 -
Hive面试题
union all不会进行去重和排序操作,执行效率要比union高。原创 2024-04-24 22:47:58 · 1499 阅读 · 0 评论 -
SQL必会题型技巧
这里总结一下刷sql题遇到的那些一开始思路不是很清晰的题目,方便复习,要保证看到相同的题目一眼出思路。原创 2024-04-20 21:23:35 · 1241 阅读 · 0 评论 -
Hadoop面试题
数据倾斜就是在计算数据的时候,由于数据分散度不够,导致大量的数据集中到一台或者几台机器上计算,这些数据的计算速度远远低于平均计算速度,导致整个计算过程很慢。原创 2024-04-19 19:28:05 · 1921 阅读 · 0 评论 -
电商数仓面试必问题
范式建模:就是严格按照三范式的要求来进行建模,通过实体关系模型(ER模型)来描述业务,不同的实体有不同的属性,并且实体和实体直接存在着关系,这个就说实体关系模型,比如用户和商品就是两实体。严格按照三范式来建模的话,一般就会生成很多小表,虽然减少了数据的冗余,但是查询效率会比较低。维度建模:就是反范式建模,并不严格按照三范式要求进行建模,主要分为事实表和维度表,事实表就是业务过程,比如下单、退单等,包括维度列和度量列,这个维度列就是用来关联维度表的;按照维度表的设计不同,有星型模型、雪花模型、星座模型。原创 2025-01-02 20:58:22 · 691 阅读 · 0 评论