
Spark
spark知识点和工业实战代码
文大侠666
专注安全领域,擅长Go/C++,玩点大数据。
展开
-
1.spark基础概念
hadoop存在问题spark优点Spark技术栈Spark体系架构核心架构hadoop存在问题基于磁盘,运行慢函数函数较少,只有map/reduce,不够灵活spark优点基于内存,优先存储在内存使用DAG(有限无环图),优化流程基于RDD数据集,提供更多的操作函数,且可以基于Scala或Python Shell快速验证原型Spark技术栈如下,基于Sp...原创 2019-05-15 21:15:35 · 205 阅读 · 0 评论 -
2.spark 独立模式安装
安装JDK/Scala安装hadoop安装Spark- 下载- 安装- 测试安装JDK/Scala参考前文安装hadoop参考前文这里我们只需要使用HDFS作为存储,所以只需要start-dfs.sh启动分布式文件系统即可安装Spark下载下载位置 http://spark.apache.org/downloads.html注意选择适合对应hadoop版本的sp...原创 2019-05-15 21:20:55 · 667 阅读 · 0 评论 -
3.spark 集群模式安装
集群模式说明安装JDK/Scala安装hadoop安装Spark下载安装测试开启独立集群开启shell执行语句测试集群模式说明如第一节所说,spark依赖的存储引擎和资源调度框架均可以替换,上一节默认都在本地,要改成集群模式,只需要把对应的存储引擎和计算引擎替换上即可。这里主要讲独立集群模式(standlone)和yarn集群模式:前者只依赖hdfs作为...原创 2020-01-29 17:15:52 · 297 阅读 · 0 评论 -
4.RDD常见操作
RDD分类RDD 操作演示RDD核心概念-弹性分布式数据集类似Map/Reduce始终使用KV数据对,Spark中RDD可以保存所有类型数据,类似数据库中的一张表。RDD是不可变的,通过变换操作,返回全新RDD,原来RDD不变。RDD两种操作:变换(Transformation)map,filter,flatMap,groupByKey,reduceByKey,aggr...原创 2019-05-15 21:21:42 · 1338 阅读 · 0 评论 -
5.最简单Spark应用 WordCount
编写步骤本地测试提交集群运行下载编写步骤引入spark库这里使用maven <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core --> <dependency> <groupId>org.apache.spark</gro...原创 2019-05-16 09:24:17 · 311 阅读 · 0 评论