Spark
文章平均质量分 64
BornZhu
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
RDD dependency源码详解
一、RDD的依赖关系 RDD的依赖关系分为两类:宽依赖和窄依赖。我们可以这样认为: (1)窄依赖:每个parent RDD 的 partition 最多被 child RDD 的一个partition 使用。 (2)宽依赖:每个parent RDD partition 被多个 child RDD 的partition 使用。 窄依赖每个 child RDD 的 partit...原创 2018-06-05 22:17:41 · 510 阅读 · 0 评论 -
Spark动态内存源码总结
一、Spark内存管理模式 Spark有两种内存管理模式,静态内存管理(Static MemoryManager)和动态(统一)内存管理(Unified MemoryManager)。动态内存管理从Spark1.6开始引入,在SparkEnv.scala中的源码可以看到,Spark目前默认采用动态内存管理模式,若将spark.memory.useLegacyMode设置为true,则会改为采...原创 2018-06-04 13:23:11 · 749 阅读 · 0 评论 -
Spark源码的下载和编译
1.spark的下载打开网址spark.apache.org,点击download,选择想要下载的版本,我这里选择了最新的2.2.0版本在choose a package type 中选择source code,获取spark2.2.0的下载镜像,即可完成下载。(官网有时候版本切换会有问题,可以在download spark下方的signatures and checksums中选择想原创 2017-11-15 16:52:08 · 6847 阅读 · 0 评论 -
hadoop,sparksql学习过程中遇到的报错及解决方法
四五个月之前学习了hadoop,sparksql,在学习过程中遇到了许多问题,陆续地总结到了word文档中,现在把这些东西放到博客里,虽然都是些基础的问题,但是相信也能够帮助到和我一样刚刚入门的小伙伴们。我的环境:CentOS 6.4 hadoop-2.6.0-cdh5.7.0 hive-1.1.0-cdh5.7.0 scala2.11.8 spark-2.1原创 2017-11-14 15:50:21 · 2142 阅读 · 1 评论 -
Spark streaming整合flume之Push方式
1.Flume agent的配置simple-agent.sources = netcat-sourcesimple-agent.sinks = avro-sinksimple-agent.channels = memory-channelsimple-agent.sources.netcat-source.type = netcatsimple-agent.sources原创 2017-12-13 15:33:17 · 348 阅读 · 0 评论 -
Spark streaming整合Flume之pull方式
1.flume agent的配置simple-agent.sources = netcat-sourcesimple-agent.sinks = spark-sinksimple-agent.channels = memory-channelsimple-agent.sources.netcat-source.type = netcatsimple-agent.sour原创 2017-12-14 20:06:07 · 401 阅读 · 0 评论 -
Spark streaming整合Kafka之Receiver方式
1.Kafka的测试确保Kafka的正常工作,为后续工作打好基础(1)启动zookeeper(2)启动kafka(3)创建topic(4)分别启动生产者和消费者,测试本topic能否正常生产和消费消息2.spark streaming应用程序开发import org.apache.spark.SparkConfimport org.apache.spark.str原创 2017-12-15 10:27:55 · 563 阅读 · 0 评论 -
Spark streaming整合Kafka之Direct方式
1.spark streaming应用程序编写import org.apache.spark.SparkConfimport org.apache.spark.streaming.kafka.KafkaUtilsimport org.apache.spark.streaming.{Seconds, StreamingContext}import kafka.serializer.St原创 2017-12-21 10:37:26 · 430 阅读 · 0 评论 -
Spark及其生态圈概述
1.Spark的概述及特点 执行速度快、易用、通用2.Spark的产生背景(1)MapReduce的局限性:代码繁琐、只能支持map和reduce方法、执行效率低下、不适合迭代多次、交互式、流式的处理(2)框架多样化:1)批处理:MapReduce、Hive、Pig;2)流式处理:Storm、Jstorm;3)交互式计算:Impala这些需求都可以用Spark解决3.原创 2018-01-23 21:11:46 · 1008 阅读 · 0 评论 -
Spark SQL概述
1.Spark SQL概述Spark SQL是Spark的核心组件,发布于Spark1.0.它可以运行SQL/Hive QL语句,包括UDFs,UDAFs和SerDes。它能够通过JDBC连接已经存在的BI工具。能够支持Python,Scala,Java和R语言。Spark SQL它不仅仅有访问或操作SQL的功能,还提供了其他的非常丰富的操作:外部数据源、优化。小结:(1)Spar原创 2018-01-24 11:33:50 · 391 阅读 · 0 评论 -
RDD与DataFrame的互操作
1.DataFrame与RDD互操作方式一:反射方式(1)使用反射来推断包含了特定数据类型的RDD的元数据(2)使用DataFrame API或者sql方式编程//添加隐式转换import spark.implicits._val spark = SparkSession.builder().appName("xxx").master("local[2]").getOr原创 2018-03-08 20:12:21 · 998 阅读 · 0 评论 -
RDD 作业的DAG是如何切分的?
我们都知道,RDD存在着依赖关系,这些依赖关系形成了有向无环图DAG,DAG通过DAGScheduler进行Stage的划分,并基于每个Stage生成了TaskSet,提交给TaskScheduler。那么这整个过程在源码中是如何体现的呢? 1.作业的提交1// SparkContext.scala2 dagScheduler.runJob(rdd, cleanedFunc, partiti...原创 2018-06-25 14:23:24 · 1226 阅读 · 0 评论
分享