
Spark
文章平均质量分 78
xipenfei
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark 提交执行源码学习
SparkSubmit 执行后,执行环境准备工作private def runDriver(): Unit = { addAmIpFilter(None, System.getenv(ApplicationConstants.APPLICATION_WEB_PROXY_BASE_ENV)) userClassThread = startUserApplication() // This a bit hacky, but we need to wait until the原创 2021-12-11 23:33:48 · 850 阅读 · 0 评论 -
Spark学习(七)---编程操作SparkSQL和关系型数据库读写
这次我们介绍以编程的方式进行sparkSQL的查询和关系型数据库读写,主要有通过反射推断Schema通过StructType指定Schema使用SparkSQL编程操作HiveQLSparkSQL读取数据库文件Spark向关系数据库写入1. 编程操作SparkSQL前面我们学习了如何在Spark Shell中使用SQL完成查询,现在我们通过IDEA编写Spark SQL查询程序...原创 2018-10-21 14:38:43 · 2365 阅读 · 1 评论 -
Spark学习(六)---SparkSQL介绍
这次我们学习SaprkSQL,主要分三个部分Spark SQL的原理DataFrame数据结构和使用方式DataSet数据结构和使用方式1. Spark SQL1.1 Spark SQL历史Shark是一个为Spark设计的大规模数据仓库系统,它与Hive兼容。Shark建立在Hive的代码基础上,并通过将Hive的部分物理执行计划交换出来。这个方法使得Shark的用户可以加速H...原创 2018-10-21 10:28:59 · 559 阅读 · 0 评论 -
Spark学习(十)---SparkStreaming和flume的整合
这次我们介绍SparkStreaming和flume的整合,flume作为日志实时采集的框架,可以与SparkStreaming实时处理框架进行对接,flume实时产生数据,sparkStreaming做实时处理。Spark Streaming对接FlumeNG有两种方式,一种是FlumeNG将消息Push推给Spark Streaming,还有一种是Spark Streaming从flume ...原创 2018-10-23 09:27:33 · 913 阅读 · 0 评论 -
Spark学习(五)---RDD原理解析和spark运行架构
这次我们介绍RDD的原理和spark运行机制RDD依赖关系RDD缓存RDD容错机制spark运行架构spark任务调度1. RDD原理首先我们对之前的单词统计的代码做一个画图展示1.1 RDD依赖关系RDD和它依赖的父RDD的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency)。窄依赖窄依赖指的是每一个父R...原创 2018-10-20 19:16:05 · 398 阅读 · 0 评论 -
Spark学习(四)---人口密度监控案例
这次我们介绍人口密度计算的案例在案例之前会有spark的scala统计点击流日志代码小案例。1. 击流日志分析案例1.1需求下面的系列数据主要包括用户IP,浏览网址,时间,请求方式等,统计PV,UV,和被访问的TopN,下面是一条样例数据194.237.142.21 - - [18/Sep/2013:06:49:18 +0000] "GET /wp-content/uploads/2...原创 2018-10-20 12:53:16 · 529 阅读 · 0 评论 -
Spark学习(九)---Spark streaming常用演示
这次我们演示使用使用SparkStreaming对不同数据流读取的简单操作,以单词统计为例接受socket数据,实现单词计数和实现累加使用开窗函数统计时间段内的热词语1. 实现单词计数WordCount1. 1架构1.2 实现流程(1)安装并启动生产者首先在linux服务器上用YUM安装nc工具,nc命令是netcat命令的简称,它是用来设置路由器。我们可以利用它向某个端口发...原创 2018-10-22 23:47:17 · 283 阅读 · 0 评论 -
Scala入门第十一篇--Akka实现简易版的spark通信框架
本次我们介绍使用Akka实现简易的Spark通信框架,主要分为:Akka简介提出需求需求分析代码示例Akka简介Akka基于Actor模型,提供了一个用于构建可扩展的(Scalable)、弹性的(Resilient)、快速响应的(Responsive)应用程序的平台。Actor模型在计算机科学领域,Actor模型是一个并行计算(Concurrent Computation)...原创 2018-10-17 19:39:39 · 711 阅读 · 0 评论 -
Spark学习(八)---Spark streaming原理
这次我们介绍spark streaming,今天主要是原理和相关的操作Spark Streaming概念介绍Spark Streaming的相关操作1. Spark Streaming概念1.1什么是Spark StreamingSpark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强...原创 2018-10-22 12:24:14 · 696 阅读 · 0 评论 -
Spark学习(三)---RDD原理和API
本次我们介绍RDD的原理和基本的APRDD原理RDD的API1. RDD原理1.1 什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集。是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将数据缓...原创 2018-10-20 00:06:08 · 337 阅读 · 0 评论 -
Spark学习(二)--任务提交
这次我们主要介绍spark的任务提交的方式和代码的编写spark的常用角色介绍spark-shell代码任务提交1. spark常用的角色介绍Spark 是基于内存计算的大数据并行计算框架。 因为其基于内存计算, 比Hadoop 中 MapReduce 计算框架具有更高的实时性, 同时保证了高效容错性和可伸缩性。 从 2009 年诞生于 AMPLab 到现在已经成为 Apache ...原创 2018-10-18 22:08:43 · 352 阅读 · 0 评论 -
Spark学习(一)--Spark入门介绍和安装
本次主要介绍spark的入门概念和安装Spark概念Spark特点Spark安装1. Spark概念1.1 什么是SparkSpark 是一种快速、 通用、 可扩展的大数据分析引擎, 2009 年诞生于加州大学伯克利分校 AMPLab, 2010 年开源, 2013 年 6 月成为 Apache 孵化项目, 2014年 2 月成为 Apache 顶级项目。 目前, Spark 生...原创 2018-10-18 20:26:32 · 608 阅读 · 0 评论 -
Scala入门第十二篇--Akka多节点通信实现
这次我们介绍Akka实现多节点通信,基本的Spark节点通信的构建需求利用Akka实现Spark多节点的通信需求分析业务逻辑分析先启动master,然后启动worker在worker端,通过在preStart方法拿到master的引用,就可以通过这个引用向master发送消息,将信息封装到样例中master接收注册信息,保存注册信息。master反馈注册成功信息给worker...原创 2018-10-17 23:02:52 · 739 阅读 · 0 评论