Spark_Alexkay的博客-优快云博客

Spark

关注

文章平均质量分 64

关注数：文章数：10 文章阅读量：20646 文章收藏量：14

作者: Alexkay

这个作者很懒，什么都没留下…

展开

配置Spark history server

问题描述：启动sbin/start-history-server.sh，jps下无historyserver进程，查看日志，显示如下错误。原因分析：1）查看$SPARK_HOME/conf，发现未配置spark-default.conf；2）将spark.fs.history.logDirectory配置到conf/spark-defaults.conf目录里，发现并不起作用

原创 2016-03-07 11:34:01 · 1441 阅读 · 0 评论
Spark Broadcast源码分析

本博文的主要内容包括：1、Broadcast功能描述2、Broadcast创建过程3、Broadcast读写原理一、功能描述Broadcast是指将数据从一个节点发送到其他节点，供其计算使用，是spark在计算过程中非常常用的方式，通常使用方式，包括共享配置文件，map数据集，树形数据结构等，为能够更好更快速为TASK任务使用相关变量。但是Broadcast不适合存放过大的数据

原创 2016-03-25 09:01:31 · 738 阅读 · 0 评论
Spark性能优化第四季-序列化

一：Spark程序数据结构的优化1、Java的对象：对象头占用16个字节（包括指向对象的指针等元数据信息），如果对象中只有一个Int的property，则此时会占用20个字节，也就是说对象的元数据占用了大部分的空间。所以在封装数据的时候尽量避免使用对象！例如说使用JSON格式来封装数据；2、Java中基本的数据类型会自动的封装操作，例如int会自动变成Integer，这会额外增加对象头的空

原创 2016-03-20 14:33:10 · 660 阅读 · 0 评论
利用Spark将DataFrame、Hive数据写入Oracle

本篇博文的主要内容：1、分析Spark读写Oracle方法2、DataFrame数据写入Oracle3、Hive数据写入OracleDataFrame是在Spark1.3.0中推出的新的api，它借鉴了R语言DataFrame的一些优点，这让spark具备了处理大规模结构化数据的能力。作为Spark初学者，在通过学习使用Spark读写RDBMS数据的过程中，遇到了一系统的问

原创 2016-03-23 15:18:47 · 8300 阅读 · 1 评论
Spark性能优化第五季-数据本地性调优

一：Spark性能调优之序列化1、序列化最重要的原因是内存空间有限（减少GC的压力，最大化避免Full GC的产生，因为一旦产生Full GC，则整个Task处于停止状态！）、减少磁盘IO的压力、减少网络IO的压力；2、什么时候会必要的产生序列化和反序列化？发送磁盘IO和网络通信的时候会序列化和反序列化，更为重要的考虑序列化和反序列化的时候有另外两种情况：1）Persist（Checkpo

原创 2016-03-20 14:35:57 · 4565 阅读 · 0 评论
Spark Rpc通信源码分析

Spark 1.6+推出了以RPCEnv、RPCEndpoint、RPCEndpointRef为核心的新型架构下的RPC通信方式。其具体实现有Akka和Netty两种方式，Akka是基于Scala的Actor的分布式消息通信系统，Netty是由JBOSS提供的一个java开源框架。Netty提供异步的、事件驱动的网络应用程序框架和工具，用以快速开发高性能、高可靠性的网络服务器和客户端程序。

原创 2016-03-22 21:01:07 · 1524 阅读 · 0 评论
Spark资源调度机制流程

1、SparkContext实例化，调用createTaskScheduler来创建TaskSchedulerImpl和SparkDeploySchedulerBackend；2、在SparkContext实例化的时候，调用TaskSchedulerImpl的start，在该start方法中调用SparkDeploySchedulerBackend的start方法；3、在SparkDepl

原创 2016-03-20 14:58:40 · 754 阅读 · 0 评论
Spark性能优化第六季-Shuffle性能调优

一：性能优化之数据本地性1、数据本地性对分布式系统的性能而言是一件最为重要的情况之一，程序运行本身饮食代码和数据两部分，单机版本一般情况下很少考虑数据本地性的问题（因为数据在本地），但是对于单机版本的程序，由于数据本性有PROCESS_LOCAL和NODE_LOCAL之分，所以，尽量让数据处于PROCESS_LOCAL级别。Spark作为分布式系统，更加注重数据本地性，在Spark中数据本地

原创 2016-03-20 14:38:37 · 686 阅读 · 0 评论
Spark性能优化第二季-Task、数据倾斜及网络性能优化

一：Task性能优化1、慢任务的性能优化：可以考虑减少每个Partition处理的数据量，同时建议开启spark.speculation（在/conf目录下查找）2、尽量减少Shuffle，例如，要尽量减少groupByKey的操作，因为groupByKey会要求通过网络copy所有的数据（这就是所谓的shuffle）。优先考虑使用reduceByKey。因为会首先reduce local

原创 2016-03-20 14:35:12 · 615 阅读 · 0 评论
Spark算子：RDD基本转换操作(mapPartitions、mapPartitionsWithIndex)

1、mapPartitions函数定义：def mapPartitions[U](f: (Iterator[T]) => Iterator[U], preservesPartitioning: Boolean = false)(implicit arg0: ClassTag[U]): RDD[U] 该函数和map函数类似，只不过映射函数的参数由RDD中的每一个元素变成了R

转载 2016-04-21 17:55:44 · 1365 阅读 · 0 评论

Spark

作者: Alexkay

配置Spark history server

Spark Broadcast源码分析

Spark性能优化第四季-序列化

利用Spark将DataFrame、Hive数据写入Oracle

Spark性能优化第五季-数据本地性调优

Spark Rpc通信源码分析

Spark资源调度机制流程

Spark性能优化第六季-Shuffle性能调优

Spark性能优化第二季-Task、数据倾斜及网络性能优化

Spark算子：RDD基本转换操作(mapPartitions、mapPartitionsWithIndex)