
Spark
zxc123e
这个作者很懒,什么都没留下…
展开
-
Spark基本架构及运行原理
Spark软件栈Spark Core:包含Spark的基本功能,包含任务调度,内存管理,容错机制等,内部定义了RDDs(弹性分布式数据集),提供了很多APIs来创建和操作这些RDDs。为其他组件提供底层的服务。Spark SQL:Spark处理结构化数据的库,就像Hive SQL,Mysql一样,企业中用来做报表统计。Spark Streaming:实时数据...原创 2018-04-12 13:20:39 · 30543 阅读 · 4 评论 -
Spark 运行第一个Scala程序WordCount
安装首先去官网下载Spark。注意Spark和Hadoop之间版本对应关系,我自己装的Hadoop 2.7.5版本,按照下面方式下载即可。 下载完成后,解压安装包至路径/usr/localtar -zxf ./spark-2.3.0-bin-hadoop2.7.tgz -C /usr/local/cd /usr/localsudo mv ./spark-2.3.0-bin-had...原创 2018-04-13 10:37:28 · 24127 阅读 · 1 评论 -
RDD与共享变量
RDD和共享变量是Spark中的两个重要抽象。RDD弹性分布式数据集, 是分布式内存的一个抽象概念,RDD提供了一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,只能通过在其他RDD执行确定的转换操作(如map、join和group by)而创建,然而这些限制使得实现容错的开销很低。RDD的创建从文件系统中加载数据创建通过并行集合(数据)创建val ...原创 2018-06-15 17:45:55 · 1533 阅读 · 1 评论 -
Spark SQL入门基础
Spark SQL简介从Shark说起Shark即hive on Spark,为了实现与Hive兼容,Shark在HiveQL方面重用了Hive中HiveQL的解析、逻辑执行计划、翻译执行计划优化等逻辑,可以近似认为将物理执行计划从MapReduce作业替换成了Spark作业,通过Hive的HiveQL解析,把HiveQL翻译成Spark上的RDD操作。Shark的出现,使得SQL-o...原创 2018-06-27 18:05:34 · 7460 阅读 · 0 评论 -
Spark Streaming基础简介
批量计算和流计算首先什么是静态数据和流数据?很多企业为了支持决策分析而构建的数据仓库系统,其中存放的大量历史数据就是静态数据。而流数据即数据以大量、快速、时变的流形式持续到达。对于静态数据和流数据的处理,对应着两种截然不同的计算模式:批量计算和流计算批量处理:充裕时间处理静态数据,如Hadoop。Hadoop设计的初衷是面向大规模数据的批量处理,每台机器并行运行MapReduce任务...原创 2018-07-30 17:42:44 · 1900 阅读 · 1 评论 -
Spark Streaming 基本输入流
文件流在spark/mycode/streaming/logfile目录下新建两个日志文件log1.txt和log2.txt,随便输入内容。比如,在log1.txt中输入以下内容:I love HadoopI love SparkSpark is fast进入spark-shell创建文件流。请另外打开一个终端窗口,启动进入spark-shellimport org.a...原创 2018-08-30 15:31:12 · 1455 阅读 · 0 评论 -
Spark DStream数据源之Kafka
Kafka介绍Kafka是一种高吞吐量的分布式发布订阅消息系统,用户通过Kafka系统卡伊发布大量的消息,同时也能实时订阅消费消息Kafka可以同时满足在线实时处理和批量离线处理在大公司生态系统中,可以把Kafka作为数据交换枢纽,不同类型的分布式系统(关系数据库、NoSQL数据库、流处理系统、批处理系统等),可以统一接入到Kafka,实现和Hadoop各个组件之间的不同类型数据的实时高效交...原创 2018-10-24 17:07:48 · 864 阅读 · 0 评论