spark
starkpan
日出东海落西山,喜也一天,愁也一天。
遇事不钻牛角尖,人也舒坦,心也舒坦。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
centos7 spark local 模式搭建
本文背景:linux上新建用户为hadoop,hadoop文件夹下新建文件夹app 1、下载spark,我这里采用了自己编译的spark版本,解压到对应目录 tar -zxvf spark-2.1.0-bin-2.6.0-cdh5.7.0.tgz -C ~/app/ 2、配置环境变量 export SPARK_HOME=/home/hadoop/app/spark-2.1.0-bin...原创 2019-01-13 21:09:45 · 377 阅读 · 0 评论 -
centos7 spark standalone 模式搭建
1、先搭建spark local 模式 https://blog.youkuaiyun.com/starkpan/article/details/86437089 2、进入spark安装目录conf文件夹 cp spark-env.sh.template spark-env.sh 3、配置spark-env.sh,添加以下内容 SPARK_MASTER_HOST=hadoopOne SPARK...原创 2019-01-13 22:24:53 · 475 阅读 · 0 评论 -
spark初识
spark官网 http://spark.apache.org hadoop缺陷: hadoop处理流程较为复杂,在map-reduce过程中需要不断的将数据落入磁盘,造成性能低下。 spark优化: 基于内存进行计算,尽量不落地,提高效率。达到hadoop的10-100倍处理速度。 spark设计: 基于actor模式的akka框架,代码结构简洁。 基于DAG(有向无环图)...原创 2019-01-25 15:03:26 · 229 阅读 · 1 评论 -
spark分布式数据集RDD 的创建
1、启动spark spark-shell --master local[2] 2、创建一个最简单的RDD val rdd = sc.makeRDD(List(1,2,3,4,5)); 3、查看RDD rdd.collect() 返回 res0: Array[Int] = Array(1, 2, 3, 4, 5) 4、RDD指定分区(这样9个数据,就放在了3个分区中) val...原创 2019-01-25 16:38:57 · 340 阅读 · 0 评论 -
spark运行过程解析
1、懒执行 数据从源头到处理,并不是每一步操作都会立刻执行。在spark操作方法中,分为Transformation与Action两类操作。 transformation:一个方法由RDD调用,执行后产生另一个RDD。 Action:一个方法由RDD调用,执行后不是产生另一个RDD,而是产生一个非RDD的结果,例如collect,count。 Transformation方...原创 2019-01-25 22:46:49 · 297 阅读 · 0 评论 -
spark之sparkSql
1、启动spark spark-shell --master local[2] 2、创建一个简单的RDD val foodRDD = sc.makeRDD(List((1,"大虾","1元"),(2,"大闸蟹","8角"),(3,"三文鱼","5毛"))) 3、将RDD转换为一个DataFrame(Frame则代表了数据结构) val foodDF = foodRDD.原创 2019-01-26 09:52:01 · 232 阅读 · 0 评论 -
spark之sparkStreaming实时流处理
1、sparkStream官网 http://spark.apache.org/streaming/ 2、什么是sparksreaming? sparkStreamin是一种构建在spark之上的实时计算框架,他扩展了spark处理打过莫流失数据的能力,吞吐量高,容错能力强。(对标hadoop中storm) 3、处理数据方式 sparkStreaming将输入的数据按照时间...原创 2019-01-26 11:58:20 · 479 阅读 · 0 评论 -
spark优化点
在spark优化hadoop中的思路,就是优化了hadoop的shuffle过程。shuffle落入磁盘,需要将数据序列化。spark已经将shuffle过程优化,在此基础上进一步优化,需要对序列化进行优化 一、序列化优化: spark用到序列化的地方 1、shuffle时需要将对象写入到外部的临时文件 2、每个partition的数据要发送给worker,spark先把RDD包装成tas...原创 2019-01-27 15:27:10 · 212 阅读 · 0 评论 -
sparkStream 实例
一、搭建spark环境 https://blog.youkuaiyun.com/starkpan/article/details/86437089 二、实例 1、spark中自带的例子 打开两个termial(或shell终端) 一个终端输入,通过nc进行内容传输 nc -lk 9999 a a a b b b c c c c c 一个终端启动sparkStream实例,...原创 2019-02-09 12:02:38 · 677 阅读 · 0 评论
分享