
SparkCore
文章平均质量分 76
Mr云飞
书山有路勤为径,学海无涯苦作舟。锲而舍之,朽木不折;锲而不舍,金石可镂。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
SparkCore(4)调优
概述:Spark的调优主要有三个方面 1.Data Serialization **** (1)Java serialization:默认情况下,Spark使用Java的ObjectOutputStream框架序列化对象,并且可以使用您创建的任何实现Java .io. serializable类。还可以通过扩展java.io.Externalizable更紧密地控制序列化的性能。Jav...原创 2018-11-02 20:55:55 · 177 阅读 · 0 评论 -
SparkCore2
1.Glossary (1)Application(应用,创建了一个SparkContext就是一个Application)=1个Driver program + n 个executors (2)Application jar:表示就是Application的主类。 (3)Driver progrem:就是你的main方法并且创建了SparkContext。这是一个进程 (4)Clus...原创 2018-10-27 15:59:03 · 224 阅读 · 0 评论 -
SparkCore1
1.RDD的五大特性? (1)A list of partition:他是RDD的基本构成,就是一系列分区。 (2)A function for computing each split/partitio:一个计算方法是作用在每个分区上面的。 (3)A list of dependencies on other RDDs:RDD会记录它的依赖 ,为了容错(重算,cache,checkpoin...原创 2018-10-24 20:20:54 · 137 阅读 · 0 评论 -
Spark:Task not serializable
package HomeWork.Core_logAnaly import org.apache.spark.{SparkConf, SparkContext} /*** * User:yunfei * Date:22/10/23 * Description: * 日志文件格式: * 域名 流量 资源 ip 访问时间 * * www.zhibo8.com 304...原创 2018-10-24 20:20:01 · 345 阅读 · 0 评论 -
SparkCore(3)
1.Spark on YARN (Client模式) (1)概述:将Spark作业提交到yarn上去执行,Spark仅仅作为一个客户端。 (2)回顾yran的架构 阐述:客户端要提交一个yarn的作业,首先要通过Resource manager去申请一个container在node mananger上,用来跑application master,然后applicati...原创 2018-10-29 21:24:26 · 190 阅读 · 0 评论 -
RDD操作(5)
1.join在Spark中的应用 (1)join至少需要2个数据集。 结果分析,A、C这些就相当于join的条件,这是inner join只返回左右都匹配上的。 (2)leftOuterjoin 结果分析:left左边有的都需要列出来,但右边不一定有,没有的就是None。 Array[(String, (String, Option[String]))] = Array((F,(f...原创 2018-10-23 15:53:44 · 188 阅读 · 0 评论 -
初识Spark
1.Spark是什么? (1)Spark,是一种快速通用的大数据计算框架,正如传统大数据技术 Hadoop的MapReduce、Hive引擎,以及Storm流式实时计算引擎等。 (2)Spark包含了大数据领域常见的各种计算框架:比如SparkCore用于离线计算,SparkStreaming用于实时流式计算,SparkSQL用于交互式查询,SparkMLib用于机器学习,SparkGraph...原创 2018-10-20 19:39:10 · 174 阅读 · 0 评论 -
SparkCore(4)
上节课回顾: (1)Spark on YARN 是不需要启动spark的任何东西的,找台机器布一下Spark就好提交作业。 (2)Spark on YARN的俩种模式的区别。取决于Driver跑在哪里,跑在client就local模式,跑在AM就是yarn (3)Spark shell不能是cluster模式,当他使用cluster模式,是不是代表了Driver在cluster集群里面,那他...原创 2018-11-02 16:09:34 · 146 阅读 · 0 评论 -
RDD操作(4)
一、RDD Operations 1.Transfoamation (1)概述:就是一个RDD转换成为另外一个RDD (体现了RDD是不可变的) Example: map :RDDA map RDDB (2)所有的transformation都是lazy(用到的时候才去加载,不用就不处理)的,所以他不会立刻去计算结果,他仅仅只是记住你的数据集transformation关系。 Ex...原创 2018-10-19 18:36:02 · 181 阅读 · 0 评论 -
SparkContext详解
1.SparkContext是什么? 他类似于javaSpringContext,是一个容器,里面装各种各样的资源。 2.SparkContext的基本了解 (1)Initializing Spark(初始化spark) (2)告诉spark如何去连接集群(local、yarn、stand) (3)在创建SparkContext之前,要先创建一个SparkConf,它包含你的一些应用程序...原创 2018-10-16 16:05:25 · 7165 阅读 · 0 评论 -
RDD操作(3)
一、如何创建RDD? 1.parallelizing an existing collection in your driver program:并行化一个现有的集合来创建RDD Example: scala> val data=Array(1,2,3,4,5) data: Array[Int] = Array(1, 2, 3, 4, 5) scala> val dts=sc.p...原创 2018-10-18 18:35:50 · 254 阅读 · 0 评论 -
RDD深入讲解
1.RDD的作用 (1)让开发者大大降低开发分布式应用程序的门槛以及提高执行效率(特指和其他框架做对比) 例如:其他框架你要考虑数据的拆分、通信机制、作业挂了如何处理、作业调度、序列化等等。但是这些在RDD中直接通过map、reduce就可以完成了。 2.什么是RDD? (1)RDD: Resilient Distributed dataset(弹性 分布式 数据集) 弹性:体现在...原创 2018-10-13 14:52:42 · 593 阅读 · 0 评论 -
SparkSQL03
1.回顾前面的内容 DF是个数据集,是按列处理的,是关系数据表里面的一张表 RDD转成DF,加载数据进来就是RDD,第一种case class 通过反射的机制来拿到外面的DF,第二种通过是手工编程的方式,structType 好处是可以指定字段的类型,坏处是有点麻烦。structField这里面装的是列的名,列的数据类型,是否为空,SQL2的内容一定要熟练到脱口而出。 2.External...原创 2018-11-13 14:40:45 · 149 阅读 · 0 评论