
spark
今夕何夕-l
这个作者很懒,什么都没留下…
展开
-
Spark SQL详解
Spark SQL原理1.Spark SQL概述(1)概念:Spark SQL 是 Spark 1.0 的新加入成员,前身是 Shark。(2)shark的初衷:①让Hive运行在Spark之上②是对Hive的改造,继承了大量Hive代码,给优化和维护带来了大量的麻烦(3)Spark SQL覆盖了shark的功能,并且拜托了Hive的依赖(4)Spark SQL特点:①易整合②统一的数据访问方式③兼容Hive2.Spark SQL架构(1)Spark SQL是Spark的核心组件之原创 2020-10-23 11:16:45 · 1675 阅读 · 0 评论 -
Spark分布式计算原理
RDD依赖以及DAG原理1.RDD的转换val lines=sc.textFile("/data/words.txt") //①val count=lines.flatMap(line=>line.split(" ")) //②.map(word=>(word,1)) //③.reduceByKey(_+_) //④count.collect //⑤(1)首先从 HDFS 中读取文件,产生一个 HadoopRDD,然后进行RDD 转换,转换结果为 MapPartitionsRDD原创 2020-10-22 09:48:31 · 993 阅读 · 1 评论 -
Apache Spark基础及架构
为什么使用Spark1.MapReduce编程模型的局限性(1)繁杂:只有Map和Reduce两个操作,复杂的逻辑需要大量的样板代码(2)处理效率低:①Map中间结果写磁盘,Reduce写HDFS,多个Map通过HDFS交换数据②任务调度与启动开销大(3)不适合迭代处理、交互式处理和流式处理2.Spark是类Hadoop MapReduce的通用并行框架(1)Job中间输出结果可以保存在内存,不再需要读写HDFS(2)比MapReduce平均快10倍以上3.Spark优势(1)速度快原创 2020-10-21 18:47:00 · 380 阅读 · 1 评论 -
CentOs下Spark的安装配置与环境搭建(单机版)
1.准备前置安装jdk以及hadoop的CentOs虚拟机即可2.解压文件(spark-2.3.4-bin-hadoop2.6.tgz压缩包)#tar -zxvf spark-2.3.4-bin-hadoop2.6.tgz 3.建立spark软连接# mv spark-2.3.4-bin-hadoop2.6 /opt/soft/spark2344.环境配置与搭建(1)进入/opt/soft/spark234/conf 目录下复制spark-env.sh.template原创 2020-09-22 12:06:32 · 655 阅读 · 0 评论