
Spark
荒野雄兵
这个作者很懒,什么都没留下…
展开
-
精讲Spark Streaming集成读取kafka0.10及以上版本
前言Spark版本:2.1.2 JDK版本:1.8 Scala版本:2.11.8 Linux版本:CentOS6.9 IDEA版本:2017.3 Kafka连接jar包:spark-streaming-kafka-0-10_2.11 (2.1.2) 每次重新搭建环境都或多或少地去网上搜一下,这次终于狠下心把它写出来。 仔细阅读了英文官方文档,又参考了好多博客,花了二天时间才...原创 2018-04-25 20:25:56 · 12316 阅读 · 24 评论 -
Spark核心功能设计详解
前言正文1. 基础设施2. SparkContext3. SparkEnv4. 存储体系5. 调度系统6. 计算引擎前言本文是读耿喜安先生的《Spark内核设计艺术:架构设计与实现》的读书笔记,感觉很重要,很基础,很有价值,特此记录一下正文Spark Core中提供了Spark最基础与最核心的功能,主要包括以下几项:1. 基础设施在S...原创 2018-07-05 07:26:57 · 1930 阅读 · 1 评论 -
Windows下IDEA远程调试Spark Streaming
前言本来半年前就应该发出来了,结果一拖就拖到了现在,真!是!决!定!了!就!要!立!即!去!做!啊! Spark版本:2.1.2 Kafka版本:1.0.0 Linux系统:CentOS6.5 场景: 做Spark Streaming开发,在Win7下使用IDE进行开发,希望在本地IDEA上远程连接服务器上的大数据集群进行调试,这里仅连服务器上的Kafka和Zookeeper服务...原创 2018-07-19 10:16:43 · 2360 阅读 · 0 评论 -
Spark内置RPC框架的基本架构
前言本文是读耿嘉安先生的《Spark内核设计的艺术:架构设计与实现》的读书笔记; 书中代码实现讲得少一些,更多的是对Spark内核架构的分析与解读 书讲得比较深看实在看不去,就一个字一个字地打出来,打完之后再回过头来温习两遍,将书中比较有价值的、重要的东西梳理一下形成此文Spark的RPC框架历史介绍在Spark中很多地方都涉及网络通信,比如Spark各个组件间的消息互通、用户文件...原创 2018-07-07 18:34:18 · 1082 阅读 · 0 评论 -
Spark中的宽依赖和窄依赖
Spark中RDD的高效与DAG图有着莫大的关系, 在DAG调度中需要对计算过程划分Stage, 而划分的依据就是就是RDD之间的依赖关系。 针对不同的转换函数,RDD之间的依赖关系分为窄依赖(narrow dependency) 和宽依赖(Wide Depencency,也称为Shuffle Depencency)。窄依赖: 指父RDD的每个分区只被子RDD的一个分区所使用,子RD...原创 2018-08-08 17:35:56 · 7946 阅读 · 0 评论 -
Spark2.1.2编译支持cdh5.10.2
环境配置值操作系统Centos6.5位数64位JDK1.8.0.65Scala2.12.4Hadoop2.6.0-cdh5.10.2Spark2.1.2第一步:从Spark官网下载Spark源码wget http://mirrors.hust.edu.cn/apache/spark/spark-2.1.2/spark-2.1.2...原创 2018-11-30 19:46:43 · 270 阅读 · 0 评论