
spark
爱学习的小肥猪
这个作者很懒,什么都没留下…
展开
-
spark SQL 参数调优
1.spark.sql.codegen 默认值为false,当它设置为true时,Spark SQL会把每条查询的语句在运行时编译为java的二进制代码。这有什么作用呢?它可以提高大型查询的性能,但是如果进行小规模的查询的时候反而会变慢,就是说直接用查询反而比将它编译成为java的二进制代码快。所以在优化这个选项的时候要视情况而定。2 spark.sql.inMemoryColumnStorage...原创 2019-12-04 11:30:08 · 280 阅读 · 0 评论 -
Spark远程调试
[size=13.3333px]Spark远程调试[size=13.3333px]本例子介绍简单介绍spark一种远程调试方法,使用的IDE是IntelliJ IDEA。[size=13.3333px]1、了解jvm一些参数属性[size=13.3333px]-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=y,address...原创 2019-12-04 11:27:20 · 535 阅读 · 0 评论 -
Spark RDD基础
弹性分布式数据集(Resilient Distributed Dataset,简称RDD),RDD 其实就是分布式的元素集合。在Spark 中,对数据的所有操作不外乎创建RDD、转化已有RDD 以及调用RDD 操作进行求值。而在这一切背后,Spark 会自动将RDD 中的数据分发到集群上,并将操作并行化执行。Spark 中的RDD 就是一个不可变的分布式对象集合。每个RDD 都被分为多个分区,这...转载 2019-11-08 12:00:31 · 141 阅读 · 0 评论 -
spark任务运行过程的源码分析
在整个spark任务的编写、提交、执行分三个部分:① 编写程序和提交任务到集群中②sparkContext的初始化③触发action算子中的runJob方法,执行任务(1)编程程序并提交到集群:①编程spark程序的代码②打成jar包到集群中运行③使用spark-submit命令提交任务在提交任务时,需要指定 --class 程序的入口(有main方法的类),1) spark-...原创 2019-11-05 14:47:35 · 111 阅读 · 0 评论 -
spark的重分区及排序
spark的重分区及排序 大家应该都知道mapPartitions值针对整个分区执行map操作。而且对于PairRDD的分区默认是基于hdfs的物理块,当然不可分割的话就是hdfs的文件个数。但是我们也可以给partitionBy 算子传入HashPartitioner,来给RDD进行重新分区,而且会使得key的hashcode相同的数据落到同一个分区。 sp...原创 2019-11-05 14:37:57 · 429 阅读 · 0 评论 -
Spark
1,概念 2,Spark 安装 2.1,Spark 安装依赖于 Scala 将 Scala tar 分别解压配置后安装在集群的所有节点设备上 2.2,解压 Spark tar 包 并完成配置 1)将 cdh 的 Spark 包解压到 /home/hduser/下 ...原创 2019-11-04 15:28:36 · 153 阅读 · 0 评论 -
spark中的jvm调优
1、发生的问题堆内存存放我们创建的一些对象,有老年代和年轻代。理想情况下,老年代都是放一些生命周期很长的对象,数量应该是很少的,比如数据库连接池。我们在spark task执行算子函数(我们自己写的),可能会创建很多对象,这些对象都是要放入JVM年轻代中的。每一次放对象的时候,都是放入eden区域,和其中一个survivor区域。另外一个survivor区域是空闲的。当eden区域和一个su...原创 2019-11-04 15:24:59 · 120 阅读 · 0 评论 -
Spark
1,概念2,Spark 安装 2.1,Spark 安装依赖于 Scala 将 Scala tar 分别解压配置后安装在集群的所有节点设备上 2.2,解压 Spark tar 包 并完成配置 1)将 cdh 的 Spark 包解压到 /home/hduser/下 2)修改 Spark 主目录下/conf/slav...原创 2019-11-04 15:13:48 · 170 阅读 · 0 评论 -
Spark源码之Standalone模式下master持久化引擎讲解v
Standalone 模式下Master为了保证故障恢复,会持久化一些重要的数据,来避免master故障导致集群不可用这种情况(也即单点故障)。目前,有四种持久化策略:1、基于zookeeper的持久化引擎;2、基于文件的持久化引擎;3、用户自定义持久化引擎;4、不使用持久化引擎。一、在master的OnStart方法中,对应的源码如下:[Scala]纯文本查看复...原创 2019-10-30 15:57:20 · 202 阅读 · 0 评论 -
Spark度量系统相
Spark度量系统 Spark的Metrics System的度量系统,有两个部分组成:source,sink,创建的时候需要制定instance。度量系统会周期的将source的指标数据被sink周期性的拉去,sink可以有很多。Instance代表着使用度量系统的角色。在spark内部,目前master,worker,Executor,client driver,这些角色都...原创 2019-10-30 15:38:01 · 155 阅读 · 0 评论 -
Spark的运行流程详解
一、Spark提交应用任务的四个阶段:总共提交的任务分为四个阶段,提交+执行:1、在分配完毕executor以后,解析代码生成DAG有向无环图;2、将生成的DAG图提交给DAGScheduler,这个组件在driver内,DAGScheduler负责切分阶段,按照DAG图中的shuffle算子进行stage阶段的切分,切分完毕阶段以后,按照每个阶段分别生成对应task任...原创 2019-10-29 14:43:27 · 555 阅读 · 0 评论