
spark技术文章
文章平均质量分 94
桩如人生
这个作者很懒,什么都没留下…
展开
-
Spark性能优化指南——高级篇
Spark性能优化指南——高级篇转载:http://tech.meituan.com/spark-tuning-pro.html前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,转载 2016-06-14 15:26:05 · 3813 阅读 · 0 评论 -
Spark运行架构
1、 Spark运行架构1.1 术语定义lApplication:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码;lDriver:Spark中的Driver即运行上述Application的main()函数并且创建SparkCon转载 2016-06-14 14:22:14 · 2079 阅读 · 0 评论 -
Spark性能优化指南——基础篇
Spark性能优化指南——基础篇转载:http://tech.meituan.com/spark-tuning-basic.html前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美转载 2016-06-14 11:00:29 · 484 阅读 · 0 评论 -
使用Spark DataFrame进行大数据处理
简介 DataFrame让Spark具备了处理大规模结构化数据的能力,在比原有的RDD转化方式易用的前提下,计算性能更还快了两倍。这一个小小的API,隐含着Spark希望大一统「大数据江湖」的野心和决心。DataFrame像是一条联结所有主流数据源并自动转化为可并行处理格式的水渠,通过它Spark能取悦大数据生态链上的所有玩家,无论是善用R的数据科学家,惯用SQL的商业分析师,还是在转载 2016-06-03 13:55:33 · 7129 阅读 · 0 评论 -
spark配置文件加载的先后顺序
转自:https://github.com/keepsimplefocus/spark-sourcecodes-analysis/blob/master/markdowns/Spark读取配置.mdSpark读取配置我们知道,有一些配置可以在多个地方配置。以配置executor的memory为例,有以下三种方式: 1. Spark-submit的--executor-memor转载 2016-07-26 11:19:58 · 8497 阅读 · 0 评论 -
Spark 官方文档(3)——Standalone 模式
Spark版本:1.6.2Spark除了支持Mesos和Yarn集群管理,还提供了一种standalone简单的部署模式。你可以手动启动一个master和多个worker构建standalone集群或者通过Spark官方脚本(后面详细介绍)启动。standalone可以在单台机器运行。在集群上安装Spark Standalone在集群的每个节点安装同一版本的spark程转载 2016-07-26 14:08:10 · 978 阅读 · 0 评论 -
Spark 官方文档(4)——Configuration配置
Spark可以通过三种方式配置系统:通过SparkConf对象, 或者Java系统属性配置Spark的应用参数通过每个节点上的conf/spark-env.sh脚本为每台机器配置环境变量通过log4j.properties配置日志属性Spark属性Spark属性可以为每个应用分别进行配置,这些属性可以直接通过SparkConf设定,也可以通过set方法设定相关属性。 下转载 2016-07-26 14:09:34 · 1921 阅读 · 0 评论 -
GC调优在Spark应用中的实践
Spark是时下非常热门的大数据计算框架,以其卓越的性能优势、独特的架构、易用的用户接口和丰富的分析计算库,正在工业界获得越来越广泛的应用。与Hadoop、HBase生态圈的众多项目一样,Spark的运行离不开JVM的支持。由于Spark立足于内存计算,常常需要在内存中存放大量数据,因此也更依赖JVM的垃圾回收机制(GC)。并且同时,它也支持兼容批处理和流式处理,对于程序吞吐量和延迟都有较高要求,转载 2016-06-20 14:11:00 · 5746 阅读 · 0 评论 -
spark关联源码及远程调试设置
一。spark 关联源码1.程序导入spark-assembly-1.6.1-hadoop2.6.0-cdh5.6.0 jar包后,进入找到org-apache-spark,随便找到一个子类点开,右上角attach sources 加载spark源码即可二、原创 2016-07-27 16:53:52 · 1101 阅读 · 0 评论