
spark
starkpan
日出东海落西山,喜也一天,愁也一天。
遇事不钻牛角尖,人也舒坦,心也舒坦。
展开
-
centos7 spark local 模式搭建
本文背景:linux上新建用户为hadoop,hadoop文件夹下新建文件夹app1、下载spark,我这里采用了自己编译的spark版本,解压到对应目录tar -zxvf spark-2.1.0-bin-2.6.0-cdh5.7.0.tgz -C ~/app/2、配置环境变量export SPARK_HOME=/home/hadoop/app/spark-2.1.0-bin...原创 2019-01-13 21:09:45 · 357 阅读 · 0 评论 -
centos7 spark standalone 模式搭建
1、先搭建spark local 模式https://blog.youkuaiyun.com/starkpan/article/details/864370892、进入spark安装目录conf文件夹cp spark-env.sh.template spark-env.sh3、配置spark-env.sh,添加以下内容SPARK_MASTER_HOST=hadoopOneSPARK...原创 2019-01-13 22:24:53 · 437 阅读 · 0 评论 -
spark初识
spark官网http://spark.apache.orghadoop缺陷:hadoop处理流程较为复杂,在map-reduce过程中需要不断的将数据落入磁盘,造成性能低下。spark优化:基于内存进行计算,尽量不落地,提高效率。达到hadoop的10-100倍处理速度。spark设计:基于actor模式的akka框架,代码结构简洁。基于DAG(有向无环图)...原创 2019-01-25 15:03:26 · 201 阅读 · 1 评论 -
spark分布式数据集RDD 的创建
1、启动sparkspark-shell --master local[2]2、创建一个最简单的RDDval rdd = sc.makeRDD(List(1,2,3,4,5));3、查看RDDrdd.collect()返回res0: Array[Int] = Array(1, 2, 3, 4, 5)4、RDD指定分区(这样9个数据,就放在了3个分区中)val...原创 2019-01-25 16:38:57 · 304 阅读 · 0 评论 -
spark运行过程解析
1、懒执行数据从源头到处理,并不是每一步操作都会立刻执行。在spark操作方法中,分为Transformation与Action两类操作。 transformation:一个方法由RDD调用,执行后产生另一个RDD。 Action:一个方法由RDD调用,执行后不是产生另一个RDD,而是产生一个非RDD的结果,例如collect,count。Transformation方...原创 2019-01-25 22:46:49 · 244 阅读 · 0 评论 -
spark之sparkSql
1、启动sparkspark-shell --master local[2]2、创建一个简单的RDD val foodRDD = sc.makeRDD(List((1,"大虾","1元"),(2,"大闸蟹","8角"),(3,"三文鱼","5毛")))3、将RDD转换为一个DataFrame(Frame则代表了数据结构) val foodDF = foodRDD.原创 2019-01-26 09:52:01 · 208 阅读 · 0 评论 -
spark之sparkStreaming实时流处理
1、sparkStream官网http://spark.apache.org/streaming/2、什么是sparksreaming?sparkStreamin是一种构建在spark之上的实时计算框架,他扩展了spark处理打过莫流失数据的能力,吞吐量高,容错能力强。(对标hadoop中storm)3、处理数据方式 sparkStreaming将输入的数据按照时间...原创 2019-01-26 11:58:20 · 462 阅读 · 0 评论 -
spark优化点
在spark优化hadoop中的思路,就是优化了hadoop的shuffle过程。shuffle落入磁盘,需要将数据序列化。spark已经将shuffle过程优化,在此基础上进一步优化,需要对序列化进行优化一、序列化优化:spark用到序列化的地方1、shuffle时需要将对象写入到外部的临时文件2、每个partition的数据要发送给worker,spark先把RDD包装成tas...原创 2019-01-27 15:27:10 · 189 阅读 · 0 评论 -
sparkStream 实例
一、搭建spark环境https://blog.youkuaiyun.com/starkpan/article/details/86437089二、实例1、spark中自带的例子打开两个termial(或shell终端) 一个终端输入,通过nc进行内容传输nc -lk 9999a a a b b b c c c c c 一个终端启动sparkStream实例,...原创 2019-02-09 12:02:38 · 647 阅读 · 0 评论