大数据开发工程师面试题

最新推荐文章于 2024-03-26 16:06:52 发布

原创最新推荐文章于 2024-03-26 16:06:52 发布 · 410 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

面试专栏收录该内容

1 篇文章

订阅专栏

这篇博客主要涵盖了大数据开发面试中常见的问题，包括实习期间的自我介绍与技术问题，如过拟合、欠拟合的处理，Spark的RDD操作，排序算法，聚类算法等。工作两年后的面试则更注重实际操作和优化，涉及Hive优化、Spark的任务提交流程、数据仓库结构、数据倾斜处理等。同时，文章也提及了Flink的反压处理、Exactly-Once语义以及处理数据倾斜和反压问题的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一找实习时

一般是自我介绍，个人是介绍学校，毕业时间，专业，实习经历，项目经历,一般这时候会开始问你问题,否则接着介绍在校获奖,有哪些社会实践经验.

本人一般用scala，但遇到比较多问Java的情况，建议多学习 java ，拓展技术面。

1,什么是过拟合,欠拟合? 如何处理

2,sparkRDD的算子操作有哪些?

3,常用排序算法,内容时间复杂度（最好，最差，平均）,稳定性?

4,bagging对于基分类器的选择????????????

5,kmeans的原理？还有哪些其他的聚类算法？

6，十大数据挖掘算法基本原理，适用场景，优缺点？

7，如何进行特征选择？如何进行降维？

8，聚类算法有哪些？分类算法有哪些？

9，协同过滤基于内容和基于用户的原理

10，spark持久化两种比较?

11、数据库sql语句使用groupby,sortby,having

二工作两年

这时会问你为什么要从前公司离职，想好理由呀！

1，现场写代码，冒泡

2，hive 的优化：参数和 sql

3，spark 宽依赖和窄依赖的区别

4，现场写SQL

5，sqoop 抽数使用，增量抽取，增量字段选择，map 数量

6，spark 任务提交流程 client 和 cluster

7，数据仓库的结构分层

8，数据倾斜如何处理

9，java 封装和多态

10，Java 和 Scala 的区别

copy:

1.阐述 Flink 如何处理反压，相比 Storm，Spark Streaming 提供的反压机制，描述其实现有什么不同？

2.阐述流处理引擎提供的三种数据处理语义，解释 Flink Checkpoint 机制如何保证 Flink 程序结果的 Exactly-Once 语义，描述如何通过两阶段提交协议提供端到端的 Exactly-Once 保证？结合 Kafka 如何构建端到端的 Exactly-Once 处理？

3.阐述 Flink 提供的容错机制，解释分布式快照 Chandy Lamport 算法逻辑，剖析 Flink Checkpoint 具体实现流程？

4.如何处理 Flink 作业频繁重启问题？

5.如何优化大状态的 Flink 作业？

6.如何排查 Flink Checkpoint 超时问题？

7.如何处理 Flink 作业中的数据倾斜问题？

8.Flink 反压机制，如何排查反压瓶颈在哪，及如何处理反压问题？

9.哪种 join 可以满足单个流断流的时候仍然能够保证正确的 join 到数据？

10.watermark 是怎么生成和传递的？

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。