阿里大数据面试题集锦及参考答案(3万字长文：持续更新)

大模型大数据攻城狮

已于 2025-03-11 23:01:08 修改

阅读量3.6k

点赞数 26

分类专栏：大数据最全面试题-Offer直通车文章标签：内存管理大厂面试面试大数据数仓大数据面试大数据面经

于 2024-07-18 22:43:28 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/linweidong/article/details/140535016

版权

大数据最全面试题-Offer直通车专栏收录该内容

303 篇文章 ¥39.90 ¥99.00

订阅专栏

目录

MapReduce Shuffle为什么要将数据写入环形缓冲区

MapReduce Shuffle为什么容易发生数据倾斜

Hadoop HA当一个Namenode挂掉，会有数据丢失吗

数据倾斜发生的位置

Combiner了解吗？

什么情况下不能用Combiner？

Sum、Count、Count(distinct)哪些能用、哪些不能用Combiner？

从0-1建设数仓，你怎么做？

开窗函数用过哪些？

row_number()在MR怎么发生的？

Spark和MR都计算超过内存的数据，谁更快？

数仓建设规范，依据？

rank denserank row number 区别

Java的String可以继承吗？

Java的抽象类和接口有什么区别和联系？

接口中的方法可以定义？

Python的*args和**kwargs有什么区别？

了解机器学习算法吗？Boosting和Adaboost之类的？

那你平常都会用什么模型？

那你遇到过过拟合现象吗？如何解决？

数据库底层索引的优劣势？

我现在有一张表把所有字段都加索引了，这样好吗？

存储过程和视图分别有？

视图字段是单独存储的吗？

MR原理用你自己话简单描述。

MR中数据倾斜的产生情况，你如何解决？

一个复杂的SQL中发生了数据倾斜，你怎么确定是哪个group by还是join发生的？

count（distinct）怎么优化？

星型模型和雪花模型的区别？

项目中你遇到的记忆比较深的问题是什么？怎么解决的？

拉链表使用了吗？

为什么选用Spark on YARN这种运行模式。

什么是Hadoop HA架构

hadoop ha当一个namenode挂掉。会有数据丢失吗。如果有，有什么解决方法。

Doris查询返回速度怎样？

Doris数据库优势和你对Doris数据库的理解？

堆排序的思想是什么呢？

平常的时候你用堆排序解决什么问题呢？

讲一下Flume的原理

Kafka和Spark Streaming怎么组合的

Kafka作为消息源

Spark Streaming处理数据

Hive和HBase的区别

Spark和Hadoop区别

什么时候发生fullGC

雪花模型和星形模型的理解以及优劣对比

MR数据处理过程

MR的数据倾斜怎么产生以及解决方法

数据倾斜产生原因

你对大模型了解多少？

谈谈你对大模型的理解？

GPT的原理你能聊聊吗？

MySQL为什么选用B+树

能否估计下B+树做索引的整个表的大小

MR、Spark的shuffle有什么不同

宽依赖是什么

什么情况下需要划分宽依赖，哪些算者，groupby是行动算子吗

MR里join怎么做（说的Spark的join）

shuffle-join和sort-join使用场景有什么不同

Spark Context工作时都做了哪些事

宽窄依赖的理解，为什么要分宽窄依赖

哪些算子走宽依赖，哪些走窄依赖

一千万个整数，在5MB内存里排序

APP数据分析，昨天日活用户数发生骤降，分析异常

SQL,选出每个班级每个科目最高成绩的那个学生

在10亿个整数中找出不重复的整数

用Java代码实现两个链表有没有交集，判断链表是否有环

MapReduce Shuffle为什么要将数据写入环形缓冲区

在MapReduce的Shuffle阶段，数据处理会经历多个步骤，包括排序、分区、合并和传输。在这个过程中，数据首先由Mapper生成，然后需要被分区并发送到对应的Reducer上进行处理。为了提高效率和减少磁盘I/O操作，MapReduce采用了内存中的环形缓冲区来暂存Mapper产生的中间结果。

环形缓冲区的主要优势在于它能够高效地利用内存空间。它是一个循环使用的内存块，当数据填满后，新来的数据会覆盖最早进入缓冲区的数据，除非这些数据已经被溢写到磁盘上。这种设计使得系统可以持续不断地接收和处理数据，而不需要频繁地执行昂贵的磁盘读写操作。

此外，环形缓冲区还支持对数据进行排序和分区。一旦缓冲区达到一定阈值（通常是64MB）&#x

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大模型大数据攻城狮 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。