
大数据
文章平均质量分 92
沙漏遗失了年华
念念不忘,必有回响
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
浅谈企业数据仓库
数据仓库原创 2020-03-15 15:58:32 · 584 阅读 · 0 评论 -
spark sql 原理以及解析
前三节,我们从spark底层的RDD角度去剖析了整个Spark 程序的执行逻辑,以及一些原理性的东西,当然我们在使用的时候要是直接使用Spark Core的编程语法也可以,在此基础上Spark 还提供了基于SQL的编程语法,也就是Spark-Sql,本文章从以下几个方面去分析Spark-SqlSpark Sql 简介 Spark Sql 执行原理 Catalyst整体执行流程介绍...原创 2020-03-10 18:03:07 · 1254 阅读 · 0 评论 -
大数据spark初识 3
接着(大数据spark初识 2)我们接着来剖析spark,本篇文章我们从以下几个方面来剖析sparkSpark shuffle 原理以及过程剖析 Sparkshuffle 和 MRshuffle 有什么不同 Spark 排序原理以及过程剖析 Spark 内存管理模型 Spark 核心组件,广播变量和累加器1.Spark shuffle 原理以及过程剖析 1....原创 2020-03-09 10:12:27 · 331 阅读 · 0 评论 -
大数据spark初识 2
什么是Spark? Spark架构?以及spark 的组成 什么是Driver? 什么是Executor?以及他们之间的关系是如何的? 什么是RDD?以及RDD的作用? Spark 部署模式?以及优缺点 Spark 任务的提交流程(基于yarn) 什么是宽依赖?什么是窄依赖? Spark stage是如何划分的?spark stage 是如何调度的? Spark task是如何划...原创 2020-03-05 00:35:30 · 205 阅读 · 0 评论 -
如何利用spark向HDFS的目录中追加数据?
我们在利用spark处理存储在HDFS上的数据时经常会有这样的需求,需要不断的向同一个目录写入数据(比如,每个小时将kafka中的数据落到HDFS的同一个目录),当然这种需求有很多解决方案可以使用,今天我们所探讨的就是如何通过修改spark 数据输出组件来实现这个功能,1.1SparkContext 这个类中、提供了多种读取HDFS上文件的API,如下代码所示:/**...原创 2019-07-21 19:59:24 · 2068 阅读 · 2 评论 -
大数据spark初识
1.什么是spark? Spark 是一个用来实现快速而通用的集群计算的平台。在速度方面,Spark 扩展了广泛使用的 MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。在处理大规模数据集时,速度是非常重要的。速度快就意味着我们可以进行交互式的数据操作,否则我们每次操作就需要等待数分钟甚至数小时。Spark 的一个主要特点就是能...原创 2019-07-28 11:44:47 · 222 阅读 · 0 评论