
Spark
文章平均质量分 91
Spark技术。
大数据技术派
待我代码写成,便娶你为妻。
展开
-
Spark—GraphX编程指南
Spark系列面试题Spark面试题(一)Spark面试题(二)Spark面试题(三)Spark面试题(四)Spark面试题(五)——数据倾斜调优Spark面试题(六)——Spark资源调优Spark面试题(七)——Spark程序开发调优Spark面试题(八)——Spark的Shuffle配置调优GraphX 是新的图形和图像并行计算的Spark API。从整理上看,GraphX 通过引入 弹性分布式属性图(Resilient Distributed Property Graph)继承原创 2022-03-26 15:56:40 · 283 阅读 · 0 评论 -
Spark SQL知识点与实战
Spark SQL概述1、什么是Spark SQLSpark SQL是Spark用于结构化数据(structured data)处理的Spark模块。与基本的Spark RDD API不同,Spark SQL的抽象数据类型为Spark提供了关于数据结构和正在执行的计算的更多信息。在内部,Spark SQL使用这些额外的信息去做一些额外的优化,有多种方式与Spark SQL进行交互,比如: SQL和DatasetAPI。当计算结果的时候,使用的是相同的执行引擎,不依赖你正在使用哪种API或者语言。这原创 2021-11-22 22:29:24 · 2917 阅读 · 0 评论 -
Spark面试题整理(三)
1、为什么要进行序列化序列化?可以减少数据的体积,减少存储空间,高效存储和传输数据,不好的是使用的时候要反序列化,非常消耗CPU。2、Yarn中的container是由谁负责销毁的,在Hadoop Mapreduce中container可以复用么?ApplicationMaster负责销毁,在Hadoop Mapreduce不可以复用,在spark on yarn程序container可以复用。3、提交任务时,如何指定Spark Application的运行模式?1)cluster模式:./spa原创 2021-10-30 10:31:58 · 461 阅读 · 0 评论 -
Spark面试题(二)
本文首发于我的个人博客:Spark面试题(二)1、Spark有哪两种算子?Transformation(转化)算子和Action(执行)算子。2、Spark有哪些聚合类的算子,我们应该尽量避免什么类型的算子?在我们的开发过程中,能避免则尽可能避免使用reduceByKey、join、distinct、repartition等会进行shuffle的算子,尽量使用map类的非shuffle算子。这样的话,没有shuffle操作或者仅有较少shuffle操作的Spark作业,可以大大减少性能开销。.原创 2021-10-28 22:08:11 · 383 阅读 · 0 评论 -
Spark必问面试题
1、spark的有几种部署模式,每种模式特点?(☆☆☆☆☆)1)本地模式 Spark不一定非要跑在hadoop集群,可以在本地,起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地,一般都是为了方便调试,本地模式分三类 local:只启动一个executor local[k]:启动k个executor local[*]:启动跟cpu数目相同的 executor2)standalone模式 分布式部署集群,自带完整的服务,资源管理和任务监控是Spark自己监控,这个模式原创 2021-10-26 23:38:10 · 674 阅读 · 0 评论 -
学习建议,大数据组件那么多,可以重点学习这几个
经常有同学问我,基于Hadoop生态圈的大数据组件有很多,怎么学的过来呢,毕竟精力有限,我们需要有侧重点,我觉得下面这几个组件至关重要,是基础组件,大部分人都需要会的,其它组件可以用的时候再去查查资料学习。hadoopHbaseHiveSparkFlinkKafkaHadoop是大数据的基础组件,很多组件都需要依赖它的分布式存储、计算;主要包括Hdfs、MR、Yarn三部分,这个需要找一些好的资料(我的主页有资料领取方法),好好学学各自的用法,熟练之后,需要了解其背后的原理。基本的,你原创 2021-05-25 21:58:09 · 532 阅读 · 0 评论 -
cdh中yarn调度spark,container资源倾斜,container集中于一台或几台机器
在cdh 6.0.1版本中,提交spark任务,发现yarn分配的container集中于几台节点,其它节点没有分配。这显然会导致个别机器负载过高,从而影响集群整个性能。原因yarn.scheduler.fair.assignmultiple: Whether to allow multiple container assignments in one heartbeat. Defaults to false.这个配置项决定了是否在一次心跳分配请求中分配多个containe,在CDH中默认为true,原创 2020-12-22 21:47:55 · 907 阅读 · 1 评论 -
Spark-Submit 常用参数用法
一个Spark任务好不容易开发完成了,终于要上集群跑了,就差万里长征的最后一步了:通过Spark-Submit命令上集群运行,这时候需要做哪些常规与优化工作呢。这里贴一个常用的SparkSubmit提交脚本脚本名称:submitHelperLabel.sh脚本内容:spark-submit \--master yarn \--name helper-label-count \...原创 2019-03-11 21:19:31 · 1774 阅读 · 0 评论 -
spark应用yarn模式提交多个应用,一个Running,其它处于accepted状态
这篇文章解决我们的问题:https://blog.youkuaiyun.com/dandykang/article/details/48160927以前只是开发,现在到了一家大数据刚起步公司,需要提交spark应用到yarn,每次只能运行一个,处于Running状态,其它处于Accepted状态,经过几天折腾,仍然只能运行两个spark应用,坚持了一下,终于解决。在NodeManager中启动Exte...原创 2018-07-24 00:02:19 · 4554 阅读 · 11 评论 -
实时统计每天pv,uv的sparkStreaming结合redis结果存入mysql供前端展示
最近有个需求,实时统计pv,uv,结果按照date,hour,pv,uv来展示,当然了实际还需要按照类型字段分类统计pv,uv,比如按照date,hour,pv,uv,type来展示。这里介绍最基本的pv,uv的展示。 id uv pv date hour 1 155599 306053 2018-07-27 18关于什么是pv,uv...原创 2018-07-28 15:50:11 · 14274 阅读 · 34 评论