大数据面试
数智广西
专注AI大数据领域
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据面试-Spark专题-002
目录:01、Spark常用算子reduceByKey与groupByKey的区别,哪一种更具优势?02、如何使用Spark实现TopN的获取(描述思路或使用伪代码)03、分别简述Spark中的缓存机制(cache和persist)与checkpoint机制,并指出两者的区别与联系04、当Spark涉及到数据库的操作时,如何减少Spark运行中的数据库连接数?05、简述Spark中共享变量(广播变量和累加器)的基本原理与用途。 01、Spark常用算子reduceByKey与groupByKey的区别,哪一种原创 2020-07-10 18:39:58 · 655 阅读 · 0 评论 -
大数据面试-Spark专题-001
这里写目录标题1、Spark有几种部署方式?请分别简要论述2、Spark提交作业参数,及参数常规设置?3、简述Spark的宽窄依赖,以及Spark如何划分stage,每个stage又根据什么决定task个数?4、Spark任务使用什么进行提交,JavaEE界面还是脚本?5、简述Spark的架构与作业提交流程(画图并注明务个部分作用) 1、Spark有几种部署方式?请分别简要论述 1)Local:运行在一台机器上,通常是练手或者测试环境。 2)Standalone:构建一个基于Mster+Slaves的资源调原创 2020-07-07 08:40:36 · 508 阅读 · 0 评论
分享