大数据开发工程师 面试题

这篇博客主要涵盖了大数据开发面试中常见的问题,包括实习期间的自我介绍与技术问题,如过拟合、欠拟合的处理,Spark的RDD操作,排序算法,聚类算法等。工作两年后的面试则更注重实际操作和优化,涉及Hive优化、Spark的任务提交流程、数据仓库结构、数据倾斜处理等。同时,文章也提及了Flink的反压处理、Exactly-Once语义以及处理数据倾斜和反压问题的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一  找实习时

一般是自我介绍,个人是介绍学校,毕业时间,专业,实习经历,项目经历,一般这时候会开始问你问题,否则接着介绍在校获奖,有哪些社会实践经验.

本人一般用scala,但遇到比较多问Java的情况,建议多学习 java ,拓展技术面。

1,什么是过拟合,欠拟合?  如何处理

2,sparkRDD的算子操作有哪些?

3,常用排序算法,内容时间复杂度(最好,最差,平均),稳定性?

4,bagging对于基分类器的选择????????????

5,kmeans的原理?还有哪些其他的聚类算法?

6,十大数据挖掘算法基本原理,适用场景,优缺点?

7,如何进行特征选择?如何进行降维?

8,聚类算法有哪些?分类算法有哪些?

9,协同过滤基于内容和基于用户的原理

10,spark持久化两种比较?

11、数据库sql语句使用groupby,sortby,having

 

二  工作两年

这时会问你为什么要从前公司离职,想好理由呀!

1,现场写代码,冒泡

2,hive 的优化:参数 和 sql 

3,spark 宽依赖和窄依赖的区别

4,现场写SQL

5,sqoop 抽数 使用,增量抽取,增量字段选择,map 数量

6,spark 任务提交流程 client 和 cluster 

7,数据仓库的结构分层

8,数据倾斜如何处理

9,java 封装和多态

10,Java 和 Scala 的区别 

copy:

1.阐述 Flink 如何处理反压,相比 Storm,Spark  Streaming 提供的反压机制,描述其实现有什么不同?

 

2.阐述流处理引擎提供的三种数据处理语义,解释 Flink  Checkpoint 机制如何保证 Flink 程序结果的 Exactly-Once 语义,描述如何通过两阶段提交协议提供端到端的 Exactly-Once 保证?结合 Kafka 如何构建端到端的 Exactly-Once 处理?

 

3.阐述 Flink 提供的容错机制,解释分布式快照 Chandy  Lamport 算法逻辑,剖析 Flink  Checkpoint 具体实现流程?

 

4.如何处理 Flink 作业频繁重启问题?

 

5.如何优化大状态的 Flink 作业?

 

6.如何排查 Flink Checkpoint 超时问题?

 

7.如何处理 Flink 作业中的数据倾斜问题?

 

8.Flink 反压机制,如何排查反压瓶颈在哪,及如何处理反压问题?

 

9.哪种 join 可以满足单个流断流的时候仍然能够保证正确的 join 到数据?

 

10.watermark 是怎么生成和传递的?

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值