
Spark
「已注销」
这个作者很懒,什么都没留下…
展开
-
Spark基本原理初识与补充
文章目录SparkSpark基本原理初识基本概念执行流程总结RDD数据源普通文本文件JDBC⭐HadoopAPI⭐SequenceFile对象文件HBase⭐ 写在前面:小弟我在学习Spark的过程中,整理了一份思维导图(里面的内容算不上深奥,只是针对在学习过程中对Spark知识点的回顾),有兴趣的可以点击上方下载链接下载。你们的鼓励是对我最大的支持。 Spark Spark基本原理初识 基本概念 http://spark.apache.org/docs/latest/cluster-overview.ht原创 2020-05-24 15:16:48 · 616 阅读 · 1 评论 -
SparkSQL与Hive整合(Spark-On-Hive)
Spark-On-Hive 为什么要把Spark和Hive整合? Hive将SQL转成MR程序,执行速度相对较慢 原理: 使用SparkSQL整合Hive,其实就是让SparkSQL去加载Hive的元数据库,然后通过SparkSQL执行引擎去操作Hive表内的数据。 所以,首先要开启Hive的元数据服务,让SparkSQL能够加载到元数据。 1、Hive开启MetaStore服务 修改:hive/conf/hive-site.xml,新增加以下配置 <property>原创 2020-05-18 22:42:05 · 1052 阅读 · 0 评论 -
Spark的On Yarn集群模式部署及参数详解
Spark的On Yarn集群模式部署 官方文档 http://spark.apache.org/docs/latest/running-on-yarn.html 准备工作 安装启动Hadoop(需要使用HDFS和YARN) 安装单机版Spark 这里不需要启动集群,因为把Spark程序提交到YARN运行本质上就是把字节码给YARN集群上的JVM运行,但是有一个东西帮我们把任务提交上到YARN,所以需要一个单机版的Spark,里面有spark-shell命令 - spark-submit 修改配置 在原创 2020-05-12 16:07:16 · 1409 阅读 · 0 评论 -
Spark的StandAlone - HA高可用模式部署
StandAlone - HA高可用模式 为什么要使用HA高可用模式 Spark StandAlone集群是Master - Slaves架构的集群模式,和大部分的Master - Slaves结构集群一样,存在着Master单点故障问题。 提问:如何解决这个单点故障的问题? Spark提供了两种解决方案 基于文件系统的单点恢复(Single-Node Recovery with Local File System) 基于Zookeeper的Standby Masters(Standby Masters原创 2020-05-12 15:03:31 · 350 阅读 · 0 评论 -
Spark的StandAlone集群模式安装部署
StandAlone集群模式的介绍与部署 集群角色介绍 Spark是基于内存计算的大数据并行计算框架,实际中运行计算任务肯定是使用集群模式,那么就需要了解spark自带的standalone集群模式的架构以及它的运行机制 stand alone集群模式使用了分布式计算中的master - slave模型 master是集群中含有master进程的节点 slave是集群中worker节点含有Executor进程 Spark架构图如下: Apache对spark架构的官方描述:http://spark.apa原创 2020-05-12 12:10:52 · 567 阅读 · 0 评论 -
Spark的本地模式安装部署与初体验
Spark开箱即用,测试使用的是:spark-2.2.0-bin-2.6.0-cdh5.14.0版本。 下载地址:spark-2.2.0-bin-2.6.0-cdh5.14.0 下载 其他版本请访问apache官方:http://spark.apache.org/downloads.html local本地模式 - Spark初体验 上传与解压 将压缩包上传至Linux后解压 cd /export/servers tar -zxvf ./spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz原创 2020-05-12 10:41:07 · 469 阅读 · 0 评论