一 找实习时
一般是自我介绍,个人是介绍学校,毕业时间,专业,实习经历,项目经历,一般这时候会开始问你问题,否则接着介绍在校获奖,有哪些社会实践经验.
本人一般用scala,但遇到比较多问Java的情况,建议多学习 java ,拓展技术面。
1,什么是过拟合,欠拟合? 如何处理
2,sparkRDD的算子操作有哪些?
3,常用排序算法,内容时间复杂度(最好,最差,平均),稳定性?
4,bagging对于基分类器的选择????????????
5,kmeans的原理?还有哪些其他的聚类算法?
6,十大数据挖掘算法基本原理,适用场景,优缺点?
7,如何进行特征选择?如何进行降维?
8,聚类算法有哪些?分类算法有哪些?
9,协同过滤基于内容和基于用户的原理
10,spark持久化两种比较?
11、数据库sql语句使用groupby,sortby,having
二 工作两年
这时会问你为什么要从前公司离职,想好理由呀!
1,现场写代码,冒泡
2,hive 的优化:参数 和 sql
3,spark 宽依赖和窄依赖的区别
4,现场写SQL
5,sqoop 抽数 使用,增量抽取,增量字段选择,map 数量
6,spark 任务提交流程 client 和 cluster
7,数据仓库的结构分层
8,数据倾斜如何处理
9,java 封装和多态
10,Java 和 Scala 的区别
copy:
1.阐述 Flink 如何处理反压,相比 Storm,Spark Streaming 提供的反压机制,描述其实现有什么不同?
2.阐述流处理引擎提供的三种数据处理语义,解释 Flink Checkpoint 机制如何保证 Flink 程序结果的 Exactly-Once 语义,描述如何通过两阶段提交协议提供端到端的 Exactly-Once 保证?结合 Kafka 如何构建端到端的 Exactly-Once 处理?
3.阐述 Flink 提供的容错机制,解释分布式快照 Chandy Lamport 算法逻辑,剖析 Flink Checkpoint 具体实现流程?
4.如何处理 Flink 作业频繁重启问题?
5.如何优化大状态的 Flink 作业?
6.如何排查 Flink Checkpoint 超时问题?
7.如何处理 Flink 作业中的数据倾斜问题?
8.Flink 反压机制,如何排查反压瓶颈在哪,及如何处理反压问题?
9.哪种 join 可以满足单个流断流的时候仍然能够保证正确的 join 到数据?
10.watermark 是怎么生成和传递的?