
spark
wackycrazy
这个作者很懒,什么都没留下…
展开
-
Spark Configuration(Spark配置)
Spark提供了三个位置来配置系统:Spark Properties(Spark 属性)控制大多数 application 参数,并且可以使用 SparkConf 对象设置通过配置每个节点上的 conf/spark-env.sh 脚本,可以配置每台机器的环境变量,如 ip 地址日志可以通过 log4j.properties 配置Spark 属性Spark属性控制 applicati转载 2015-04-18 17:29:20 · 1762 阅读 · 0 评论 -
Spark1.0.0属性配置
1:Spark1.0.0属性配置方式 Spark属性提供了大部分应用程序的控制项,并且可以单独为每个应用程序进行配置。 在Spark1.0.0提供了3种方式的属性配置:SparkConf方式SparkConf方式可以直接将属性值传递到SparkContext;SparkConf可以对某些通用属性直接配置,如master使用setMaster,appnam转载 2015-10-18 18:54:40 · 246 阅读 · 0 评论 -
Spark技术内幕:Executor分配详解
当用户应用new SparkContext后,集群就会为在Worker上分配executor,那么这个过程是什么呢?本文以Standalone的Cluster为例,详细的阐述这个过程。序列图如下:1. SparkContext创建TaskScheduler和DAG SchedulerSparkContext是用户应用和Spark集群的交换的主要接口,用户应用一般首先要创建它。如果你使用转载 2015-10-18 18:50:27 · 733 阅读 · 0 评论 -
Spark1.0.x入门指南
Spark1.0.x入门指南目录[-]Spark1.0.x入门指南1 节点说明2 安装HDFS3 Spark部署3.1 Spark on Yarn3.1.1 配置3.1.2 测试3.2 Spark Standalone3.2.1 配置3.2.2 启动3.2.3 测试4 spark-submit工具5 Spark HistoryServer6 Spark可配置参数6.1 应用属性转载 2015-10-18 18:48:33 · 661 阅读 · 0 评论 -
从零开始学习,Apache Spark源码走读(一)
概要本文以wordCount为例,详细说明Spark创建和运行job的过程,重点是在进程及线程的创建。实验环境搭建在进行后续操作前,确保下列条件已满足。下载spark binary 0.9.1安装scala安装sbt 安装java 启动spark-shell单机模式运行,即local模式local模式运行非常简单,只要运行以下命令即可,假设当前目录是$S转载 2015-05-06 13:12:30 · 573 阅读 · 0 评论 -
spark 案例集群测试整理
时间:20150210 工作过程:今天打算使用spark 自带的案例sparkpi 对集群进行测试,主要向了解集群启动过程及机器的负载情况。没想到问题还还真不少,感谢群友,特别是hali 支持。主要的问题有3个:1.测试spark 集群与local 运行方式使用的差别及集群测试时Ip 与机器访问的处理2.spark 集群不能重启问题的处理 1。.测试spark 集群与loca转载 2015-05-06 12:18:37 · 503 阅读 · 0 评论 -
spark快速入门
目录 [−]使用Spark进行交互式分析基本操作更多的RDD操作缓存独立应用深入了解本教程快速介绍了Spark的使用。 首先我们介绍了通过Spark 交互式shell调用API( Python或者scala代码),然后演示如何使用Java, Scala或者Python编写独立程序。 你可以查看Spark编程指南了解完整的参考。开始下面的快速入门之前,首先需要到S转载 2015-04-27 14:43:42 · 586 阅读 · 0 评论 -
spark配置
目录 [−]Spark属性动态加载Spark属性查看Spark属性可用的属性应用属性运行时环境Runtime EnvironmentShuffle BehaviorSpark UICompression and SerializationExecution BehaviorNetworkingSchedulingSecuritySpark Streaming集群管理器Clust转载 2015-04-27 14:41:54 · 1356 阅读 · 0 评论 -
spark开发指南
目录 [−]简介接入Spark初始化Spark使用shell弹性分布式数据集RDD并行集合(Parallelized Collections)外部数据集(External Datasets)RDD 的操作基础操作将function对象传给Spark使用键值对转换(transformation)动作(actions)RDD持久化存储级别的选择移除数转载 2015-04-27 14:45:16 · 695 阅读 · 0 评论 -
spark基础学习
1背景介绍现今分布式计算框架像MapReduce和Dryad都提供了高层次的原语,使用户不用操心任务分发和错误容忍,非常容易地编写出并行计算程序。然而这些框架都缺乏对分布式内存的抽象和支持,使其在某些应用场景下不够高效和强大。RDD(Resilient Distributed Datasets弹性分布式数据集)模型的产生动机主要来源于两种主流的应用场景:Ø 迭代式算法:迭代式机器转载 2015-04-17 17:56:57 · 487 阅读 · 0 评论 -
Spark RDD:弹性分布式数据集
RDD是只读的、分区记录的集合一个RDD的生成只有两种途径:基于内存集合或稳定物理存储中的数据集执行确定性操作通过在已有的RDD上执行转换操作RDD具有自动容错、位置感知和可伸缩性特点RDD不需要物化,RDD通过Lineage来重建丢失的分区:一个RDD中包含了如何从其他RDD衍生所必须的相关信息,从而不需要检查点就可以重构丢失的数据分区RDD只支持粗粒度转换,即一个操作会被应用在RD转载 2015-04-18 16:17:42 · 745 阅读 · 0 评论 -
spark学习资料
(一)spark 相关安装部署、开发环境(二)spark 架构、原理与编码(三)spark 监控与管理(四)YARN & spark(五)spark 数据平台架构(六)spark 应用与实践(七)spark 机器学习实践(八)Scala 学习指北(九)Spark book附:(一)spark 相关安装部署、开发环境1、Spark 伪分布式 & 全分布式 安装指南http://m转载 2015-04-18 14:07:10 · 1110 阅读 · 0 评论 -
spark发展与未来
前言现今Spark正是风头正劲时,Spark本是UCBerkeley的AMPLab诞生的项目,后来捐赠给了Apache来管理源码和后续发展。今年从Apache孵化器终于孵化出了1.0版本。其对大数据的支持从内存计算和流处理,到交互式查询,一直到图计算和机器学习,可谓摆开了架势、拉长了战线,一方面挑战老前辈Hadoop和MapReduce,另一方面又随时准备迎接同样的后起之秀的挑战。转载 2015-04-18 14:12:09 · 858 阅读 · 0 评论 -
Spark源码分析之Worker
Spark支持三种模式的部署:YARN、Standalone以及Mesos。本篇说到的Worker只有在Standalone模式下才有。Worker节点是Spark的工作节点,用于执行提交的作业。我们先从Worker节点的启动开始介绍。 Spark中Worker的启动有多种方式,但是最终调用的都是org.apache.spark.deploy.worker.Worker类,启动Worker节转载 2015-10-18 19:05:31 · 442 阅读 · 0 评论