
Spark实战
王知无(import_bigdata)
微信搜:import_bigdata
GitHub搜:https://github.com/wangzhiwubigdata/God-Of-BigData
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
[大数据之Spark]——快速入门
本篇文档是介绍如何快速使用spark,首先将会介绍下spark在shell中的交互api,然后展示下如何使用java,scala,python等语言编写应用。可以查看编程指南了解更多的内容。为了良好的阅读下面的文档,最好是结合实际的练习。首先需要下载spark,然后安装hdfs,可以下载任意版本的hdfs。Spark Shell 交互基本操作Spark Shell提供给用户一...原创 2019-03-25 23:41:52 · 966 阅读 · 0 评论 -
Structured Streaming 之 Event Time 解析
福利部分: 《大数据成神之路》大纲大数据成神之路《几百TJava和大数据资源下载》资源下载本文内容适用范围:* 2018.11.02 update, Spark 2.4 全系列 √ (已发布:2.4.0)* 2018.02.28 update, Spark 2.3 全系列 √ (已发布:2.3.0 ~ 2.3.2)* 2017.07.11 update, Spark 2...转载 2019-04-13 20:10:20 · 557 阅读 · 0 评论 -
Structured Streaming 之状态存储解析
福利部分: 《大数据成神之路》大纲大数据成神之路《几百TJava和大数据资源下载》资源下载本文内容适用范围:* 2018.11.02 update, Spark 2.4 全系列 √ (已发布:2.4.0)* 2018.02.28 update, Spark 2.3 全系列 √ (已发布:2.3.0 ~ 2.3.2)* 2017.07.11 update, Spark 2...转载 2019-04-13 20:10:59 · 780 阅读 · 0 评论 -
Structured Streaming 之 Sink 解析
福利部分: 《大数据成神之路》大纲大数据成神之路《几百TJava和大数据资源下载》资源下载本文内容适用范围:* 2018.11.02 update, Spark 2.4 全系列 √ (已发布:2.4.0)* 2018.02.28 update, Spark 2.3 全系列 √ (已发布:2.3.0 ~ 2.3.2)* 2017.07.11 update, Spark 2...转载 2019-04-13 20:11:42 · 1110 阅读 · 0 评论 -
Structured Streaming 之 Source 解析
福利部分: 《大数据成神之路》大纲大数据成神之路《几百TJava和大数据资源下载》资源下载本文内容适用范围:* 2018.11.02 update, Spark 2.4 全系列 √ (已发布:2.4.0)* 2018.02.28 update, Spark 2.3 全系列 √ (已发布:2.3.0 ~ 2.3.2)* 2017.07.11 update, Spark 2...转载 2019-04-13 20:12:14 · 426 阅读 · 0 评论 -
Structured Streaming 实现思路与实现概述
本文内容适用范围:* 2018.11.02 update, Spark 2.4 全系列 √ (已发布:2.4.0)* 2018.02.28 update, Spark 2.3 全系列 √ (已发布:2.3.0 ~ 2.3.2)* 2017.07.11 update, Spark 2.2 全系列 √ (已发布:2.2.0 ~ 2.2.3)福利部分: 《大数据成神之路》大纲大数据成...转载 2019-04-13 20:13:03 · 335 阅读 · 0 评论 -
什么是 end-to-end exactly-once ?
福利部分: 《大数据成神之路》大纲大数据成神之路《几百TJava和大数据资源下载》资源下载[A] 一般我们把上游数据源 (Source) 看做一个 end,把下游数据接收 (Sink) 看做另一个 end:Source --> Spark Streaming --> Sink [end] [en...转载 2019-04-13 20:13:42 · 483 阅读 · 0 评论 -
Executor 端长时容错详解
福利部分: 《大数据成神之路》大纲大数据成神之路《几百TJava和大数据资源下载》资源下载本系列内容适用范围:* 2018.11.02 update, Spark 2.4 全系列 √ (已发布:2.4.0)* 2018.02.28 update, Spark 2.3 全系列 √ (已发布:2.3.0 ~ 2.3.2)* 2017.07.11 update, Spark...转载 2019-04-16 00:15:33 · 341 阅读 · 0 评论 -
Receiver, ReceiverSupervisor, BlockGenerator详解
福利部分: 《大数据成神之路》大纲大数据成神之路《几百TJava和大数据资源下载》资源下载本系列内容适用范围:* 2018.11.02 update, Spark 2.4 全系列 √ (已发布:2.4.0)* 2018.02.28 update, Spark 2.3 全系列 √ (已发布:2.3.0 ~ 2.3.2)* 2017.07.11 update, Spark...转载 2019-04-16 00:15:07 · 422 阅读 · 0 评论 -
Structured Streaming 之 Watermark 解析
福利部分: 《大数据成神之路》大纲大数据成神之路《几百TJava和大数据资源下载》资源下载本文内容适用范围:* 2018.11.02 update, Spark 2.4 全系列 √ (已发布:2.4.0)* 2018.02.28 update, Spark 2.3 全系列 √ (已发布:2.3.0 ~ 2.3.2)* 2017.07.11 update, Spark 2...转载 2019-04-13 20:09:11 · 1097 阅读 · 0 评论 -
CentOS7.5搭建Spark2.3.x分布式集群
福利部分: 《大数据成神之路》大纲大数据成神之路《几百TJava和大数据资源下载》资源下载一 下载安装包1 官方下载官方下载地址:http://spark.apache.org/downloads.html2 安装前提Java8 zookeeper hadoop Scala注意:从Spark2.0版开始,默认使用Scala 2.11构建。...转载 2019-04-13 20:07:30 · 436 阅读 · 0 评论 -
Spark源码分析之Spark Shell(下)
继上次的Spark-shell脚本源码分析,还剩下后面半段。由于上次涉及了不少shell的基本内容,因此就把trap和stty放在这篇来讲述。上篇回顾:Spark源码分析之Spark Shell(上)function main() { if $cygwin; then # Workaround for issue in...原创 2019-03-25 23:46:30 · 431 阅读 · 0 评论 -
Spark-在集群运行spark
在集群运行spark转载 2019-03-25 23:49:20 · 378 阅读 · 0 评论 -
Spark-RDD编程
Spark-RDD编程转载 2019-03-25 23:52:57 · 305 阅读 · 0 评论 -
Spark—数据读取和保存
Spark—数据读取和保存转载 2019-03-25 23:53:40 · 444 阅读 · 0 评论 -
Spark-在集群上运行Spark
Spark-在集群上运行Spark转载 2019-03-25 23:54:19 · 308 阅读 · 0 评论 -
ReceiverTraker, ReceivedBlockTracker 详解
福利部分: 《大数据成神之路》大纲大数据成神之路《几百TJava和大数据资源下载》资源下载本系列内容适用范围:* 2018.11.02 update, Spark 2.4 全系列 √ (已发布:2.4.0)* 2018.02.28 update, Spark 2.3 全系列 √ (已发布:2.3.0 ~ 2.3.2)* 2017.07.11 update,...转载 2019-04-16 00:15:23 · 464 阅读 · 0 评论 -
Spark之Transformation和Action
福利部分: 《大数据成神之路》大纲大数据成神之路《几百TJava和大数据资源下载》资源下载Transformation算子基本的初始化static SparkConf conf = null; static JavaSparkContext sc = null; static { conf = new SparkConf(); conf.setMast...转载 2019-04-13 20:04:20 · 342 阅读 · 0 评论 -
RDD与广播变量、累加器
福利部分: 《大数据成神之路》大纲大数据成神之路《几百TJava和大数据资源下载》资源下载一、RDD的概述1.1 什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD...原创 2019-04-13 20:06:38 · 548 阅读 · 0 评论 -
Driver 端长时容错详解
福利部分: 《大数据成神之路》大纲大数据成神之路《几百TJava和大数据资源下载》资源下载本系列内容适用范围:* 2018.11.02 update, Spark 2.4 全系列 √ (已发布:2.4.0)* 2018.02.28 update, Spark 2.3 全系列 √ (已发布:2.3.0 ~ 2.3.2)* 2017.07.11 update, Spark...原创 2019-04-16 00:14:38 · 436 阅读 · 0 评论