
spark
Mr.Lee jack
这个作者很懒,什么都没留下…
展开
-
spark集群搭建
1.目的 搭建spark目的是为了做离线计算 2.基础 spark搭建基础:hadoop集群已经搭建成功 例如:我的hadoop集群在work用户下 /home/work/hadoop-2.9.2 这是hadoop目录 /home/work/jdk1.8.0_171 这是java目录 scala包:scala-2.10.4.tgz spark包:spark-2.4....原创 2019-01-31 20:18:04 · 190 阅读 · 1 评论 -
spark离线计算之mapreduce
1.基础概念 1.在spark中,最重要的概念就是RDD,是一个不可改变的分布式数据集 2.三要素: a) 分布式数据集:也就是数据集dataset分布在集群中各个block上 b) 可以直接得到上一级RDD指针 c) 上一级的RDD可以重复使用,方便恢复数据 3.与hadoop差异在哪? hadoop流程:hdfs-->map-->red...原创 2019-03-21 12:05:14 · 1500 阅读 · 1 评论