
Spark梦想
文章平均质量分 73
二府村
Spark本命
展开
-
Spark钨丝计划:让火花(Spark)更接近灯丝(Rare Metal)详解(1)
本文主要包括如下几个内容: 1,钨丝计划 产生根本背景 2,钨丝计划的内幕详解一:钨丝计划是从Spark项目成立以来,对Spark执行引擎最大一次改进。它关注于为Spark应用从本质上提升内存和CPU的效率,从而将性能推进到接近现代硬件的极限。这次改进主要包括以下3个举措:**1,内存管理和二进制处理:借助应用的语义,显式管理内存,消除JVM对象模型和垃圾回收的开销 3,缓存感知计算:充分利用原创 2016-07-22 22:53:04 · 1456 阅读 · 0 评论 -
Flume推送数据到SparkStreaming案例实战和内幕源码解密
本博文内容主要包含以下几个方面:Flume on HDFS案例回顾Flume推送数据到Spark Streaming实战原理绘图剖析一:Flume on HDFS 案例回顾: 文件配置在上篇博文中已经详细介绍,接下来的操作基于已经成功安装完成Flume:拷贝conf/flume-conf.properties.template,更名为conf/flume-cong.properties,只原创 2016-08-20 17:14:12 · 1339 阅读 · 0 评论 -
Spark Streaming从Flume Poll数据案例实战和内幕源码解密
本博文内容主要包括以下几点内容: 1、Spark Streaming on Polling from Flume实战 2、Spark Streaming on Polling from Flume源码一、推模式(Flume push SparkStreaming)与拉模式(SparkStreaming poll Flume)比较 :采用推模式:推模式的理解就是Flume作为缓存,存有数据。监听对原创 2016-08-20 19:40:01 · 2308 阅读 · 0 评论 -
Spark Streaming on Kafka解析和安装实战
本博文内容主要包括以下几点:1、Kafka解析; 2、Kafka的安装和实战。一、Kafka的概念、架构和用例场景:1、Kafka的概念: Apache Kafka是分布式发布-订阅消息系统。 它提供了类似于JMS的特性,但是在设计实现上完全不同,此外它并不是JMS规范的实现。Kafka是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。原创 2016-08-21 11:41:59 · 2479 阅读 · 0 评论 -
Spark streaming基于kafka 以Receiver方式获取数据 原理和案例实战
本博文讲述的内容主要包括:1,SparkStreaming on Kafka Receiver 工作原理机制 2,SparkStreaming on Kafka Receiver案例实战 3,SparkStreaming on Kafka Receiver源码解析一:SparkStreaming on Kafka Receiver 简介:1、Spark-Streaming获取kafka数据的两种原创 2016-08-21 22:33:52 · 4616 阅读 · 1 评论 -
SparkStreming中的Transformations和状态管理
本博文内容主要包括:1、SparkStreaming 中的Transformations 2、SparkStreaming 中的状态管理一:SparkStreaming中的Transformation: 1、DStream就是一个RDD之上的一个抽象,DStream和时间结合起来就不断的触发产生RDD的实例,可以说我们对Dstream的操作就初步定义了对RDD的操作,只不过需要时间的间隔也就是i原创 2016-08-22 15:48:18 · 1411 阅读 · 0 评论 -
Spark Streaming updateStateByKey案例实战和内幕源码解密
本博文内容主要包括以下两个方面:1、Spark Streaming updateStateByKey案例实战 2、Spark Streaming updateStateByKey源码解密一、Spark Streaming updateStateByKey简介:updateStateByKey的主要功能是随着时间的流逝,在Spark Streaming中可以为每一个可以通过CheckPoint来维护原创 2016-08-22 17:30:23 · 1719 阅读 · 0 评论 -
SparkStreaming 实现广告计费系统中在线黑名单过滤实战
本博文内容主要包括以下内容:1、在线黑名单过滤实现解析 2、SparkStreaming实现在线黑名单过滤 一、在线黑名单过滤实现解析:流式处理是现代数据处理的主流,各种电子商务网站,搜索引擎等网站等,都需要做流式比如,通过用户的点击和购买来推断出用户的兴趣爱好,后台能实时计算,这是比较重要的,给用户推荐最好的商品等,推荐更新的信息,给用户更好的服务。Spark Streaming就是Spark原创 2016-08-23 09:23:30 · 2914 阅读 · 0 评论 -
通过Spark Streaming的window操作实战模拟热点搜索词案例实战
本博文主要内容包括:1、在线热点搜索词实现解析 2、SparkStreaming 利用reduceByKeyAndWindow实现在线热点搜索词实战一:在线热点搜索词实现解析背景描述:在社交网络(例如微博),电子商务(例如京东),热搜词(例如百度)等人们核心关注的内容之一就是我所关注的内容中,大家正在最关注什么或者说当前的热点是什么,这在市级企业级应用中是非常有价值,例如我们关心过去30分钟大家正原创 2016-08-24 08:05:29 · 3399 阅读 · 0 评论 -
通过Spark Streaming的foreachRDD把处理后的数据写入外部存储系统中
本博文主要内容包括:技术实现foreachRDD与foreachPartition解析foreachRDD与foreachPartition实现实战一:技术实现foreach解析:1、首先我们看一下Output Operations on DStreams提供的API: SparkStreaming的DStream提供了一个dstream.foreachRDD方法,该方法是一个功能强大的原创 2016-08-25 16:03:04 · 11830 阅读 · 0 评论 -
Spark Streaming 结合Spark SQL 案例
本博文主要包含以下内容:String+SQL技术实现解析Streaming+SQL实现实战一:SparkString+SparkSQL技术实现解析:使用Spark Streaming + Spark SQL 来在线计算电商中不同类别中最热门的商品排名,例如手机这个类别下面最热门的三种手机、电视 这个类别下最热门的三种电视,该实例在实际生产环境下具有非常重大的意义; 实现技术:Spark原创 2016-08-26 15:58:31 · 9084 阅读 · 0 评论 -
彻底详解Spark RDD 的的秘密花园(1)
一:RDD粗粒度与细粒度 粗粒度: 在程序启动前就已经分配好资源(特别适用于资源特别多而且要进行资源复用) 细粒度:计算需要资源是才分配资源,细粒度没有资源浪费问题。二: RDD 的解密: 1,分布式(擅长迭代式是spark的精髓之所在) 基于内存(有些时候也会基于硬盘) 特别适合于计算的计算框架 2,RDD代表本身要处理的数据,是一个数据集Dataset RDD本身是抽象的,对分布式计算原创 2016-07-20 21:37:13 · 4218 阅读 · 0 评论 -
Spark Streaming生成RDD并执行Spark Job源码内幕解密
本博文主要包含以下内容:DStream产生RDD的案例实战演示DStream作为RDD模板的原理机制常见DStream生产RDD源码解密这种常见的DStream包含三种类型,一种是输入的级别的InputDStream,第二种transformationDStream,第三种输出级别的ForeachDStream。博文主要代码如下:object NetworkWordCount { def原创 2016-09-08 08:10:09 · 1473 阅读 · 0 评论 -
动手实战联合使用Spark Streaming、Broadcast、Accumulator计数器实现在线黑名单过滤和计数
本博文主要包括: 1、Spark Streaming与Broadcast、Accumulator联合 2、在线黑名单过滤和计数实战一、Spark Streaming与Broadcast、Accumulator联合:在企业实战中,广播本身广播到集群的时候,联合上计数器的话就有很大杀伤力,这时候你可以自定义,例如自定义广播中的内容,可以实现非常复杂的内容。之所以广播和计数器特别重要,一方面鉴于广播和原创 2016-08-31 17:10:45 · 3528 阅读 · 0 评论 -
SparkStreaming数据源Flume的安装配置及应用分析
**本博文主要内容包括两大方面: 1,Flume的安装配置 2,Flume的简要介绍**一:Flume的安装配置:(1) 首先下载Flume,下载地址如下:http://www.apache.org/dyn/closer.lua/flume/1.6.0/apache-flume-1.6.0-bin.tar.gz(2)下载完之后直接在你的集群解压即可,这里我解压到/usr/local/flume原创 2016-08-19 17:11:10 · 911 阅读 · 0 评论 -
基于HDFS的SparkStreaming案例实战和内幕源码解密
本博文主要阐述基于HDFS的 Spark Streaming简单操作: 一:集群操作前步骤主要包括: (1)启动Hadoop HDFS如下图所示(底下的图是在master:50070界面监测): 出现上图所示证明启动成功 (2)启动Spark集群,如下图所示(底下图是在master:8080界面监测): (3)启动start-history-server原创 2016-08-19 15:33:11 · 1608 阅读 · 0 评论 -
Spark钨丝计划:让火花(Spark)更接近灯丝(Rare Metal)详解(2)
本文主要内容包括 : “钨丝计划”的shuffle的使用一:使用Tungsten功能 1, 如果想让您的程序使用Tungsten的功能,可以配置: Spark.Shuffle.Manager = tungsten-sort 2, DataFrame中自动开启了Tungsten功能。二:Tungsten-sort base Shuffle writer内幕 1,写数据在内存足够大的情况下原创 2016-07-23 12:20:30 · 1433 阅读 · 0 评论 -
Spark钨丝计划:让火花(Spark)更接近灯丝(Rare Metal)详解(3)
本文主要内容包括: 1,到底什么是page 2,page具体的两种 实现方式 3,page使用源码详解一:Tungsten中到底什么是Page? 1, 在Spark其实不存在Page这个类的。Page是一种数据结构(类似于Stack,List等),从OS层面上讲,Page代表了一个内存块,在Page里面可以存放数据,在OS中会存放很多不同的Page,当要获得数据的时候首先要定位具体是哪个P原创 2016-07-23 22:12:13 · 3889 阅读 · 0 评论 -
Spark集群Job,Task 的具体运行原理
一:Spark集群部署 二:Job提交解密 三:Job生成和接受 四:Task的运行 五:再论shuffle1,从spark Runtime 的角度讲来讲有5大核心对象:Master , Worker , Executor ,Driver , CoarseGrainedExecutorbacked ;2,Spark 在做分布式集群系统的设计的时候,最大化功能的独立,模块化封装具体的独立的对象原创 2016-07-14 21:54:45 · 2249 阅读 · 0 评论 -
Task Sheduler 内部工作原理以及源码解密
一: TaskSheduler原理解密: 1,DAGScheduler 在提交 TaskSet 给底层调度器TaskSheduler的时候是面向接口TaskSheduler的,这符合面向对象中依赖抽象而不是依赖具体的原则,带来了底层资源调度器的可抽拨性,导致spark可以运行众多的资源调度器模式上,例如:standalone,Yarn,Mesos,Local.Ec2,其他自定义的资源调度器;在sta原创 2016-07-15 21:35:10 · 1463 阅读 · 0 评论 -
最详细的整个Spark运行时的内核架构以及架构思考
一: Spark内核架构1,Drive是运行程序的时候有main方法,并且会创建SparkContext对象,是程序运行调度的中心,向Master注册程序,然后Master分配资源。应用程序: Application = Driver(驱动程序) + Executor(执行程序)Driver部分的代码:主要是SparkContext +SparkConf Application 的main 方法原创 2016-07-19 22:16:53 · 3868 阅读 · 0 评论 -
Spark SQL 下DateFrame的初步认识(1)
1, SparkSQL简介SparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O,降低的运行效率,为了提高SQL-on-Hadoop的效率,大量的SQL-on-Hadoop工具开始产生,其中原创 2016-07-31 21:24:35 · 1397 阅读 · 0 评论 -
Spark SQL 下DateFrame的初步认识(2)
1,使用Java和Scala实战RDD和DataFrame1,Java 方式实战RDD与DataFrame的转换原创 2016-07-31 22:53:23 · 1267 阅读 · 1 评论 -
Spark SQL 下DateFrame的初步认识(3)
概要:Spark SQL对数据的操作涉及到对数据的输入、输出,其实主要就是操作DataFrame。通过DataFrameReader的load方法可以创建DataFrame,通过DataFrameWriter的save方法可以把DataFrame中的数据保存到具体文件。我们可以通过设置具体的格式参数来指出读取的文件是什么类型,以及通过设置具体的格式参数来指出输出的文件是什么类型。1, Spark S原创 2016-08-01 16:32:09 · 2061 阅读 · 0 评论 -
Scala 容器与类型系统之编程进阶(3)
本篇博客主要介绍Scala中容器的使用以及类型系统的使用语法:1.Scala 容器的使用/*Scala的集合体系中Iterable是共同的Trait,Iterable要继承实现一些共同的方法,例如对元素的遍历Array是一个非常基础的数据结构,不从属于Scala集合体系Scala集合体系中集合分为可变集合和不可变集合之分;不可变集合在scala.collection.immutable中可变集合在原创 2016-08-05 08:56:08 · 620 阅读 · 0 评论 -
Spark Streaming Hello World案例动手实战其工作原理
本博客主要包含以下内容: 1、Spark Streaming 动手实战演示 2、闪电般理解Spark Streaming原理 3、案例动手实战并在电光石火间理解其工作原理在当今大数据时代为数据流处理,日常工作、生活中数据来源很多不同的地方。例如:工业时代的汽车制造、监控设备、工业设备会产生很多源数据;信息时代的电商网站、日志服务器、社交网络、金融交易系统、黑客攻击、垃圾邮件、交通监控等;通信时原创 2016-08-18 11:54:48 · 923 阅读 · 0 评论 -
使用Spark Streaming实战对网站动态行为的多维度分析
本博文主要包括以下内容: 1、技术分析 2、实现实战/** * * 论坛数据自动生成代码,该生成数据回座位Producer的方式发送给Kafka,然后通过SparkStreaming程序会从 * Kafka中在线Pull到论坛或者网站的用户在线行为信息,进而进行多维度的在线分析 * data: 日期,格式为yyyy-MM-dd * timestamp:时间戳 * userID:用户I原创 2016-08-27 09:48:25 · 3031 阅读 · 0 评论 -
Scala和Java二种方式实战Spark Streaming开发
在这里我主要借鉴课上老师讲的以及官网的API来进行简单的Spark Streaming的开发:一:java形式:1.我们可以总结一下步骤:第一步:创建SparkConf对象 第二步:创建SparkStreamingContext 第三步:创建爱你SparkStreaming输入数据来源(我们将数据源配置为本地端口9999(要求端口没有被占用)) 第四步:我们就像对RDD编程一样,基于DStre原创 2016-08-18 16:12:47 · 4092 阅读 · 0 评论 -
StreamingContext、DStream、Receiver深度剖析
本博文主要有一下内容: (1)对StreamingContext功能及源码剖析; (2)对DStream功能及源码剖析; (3)第三部分对Receiver功能及源码剖析; (4)将StreamingContext、DStream、Receiver结合起来分析其流程。一、StreamingContext功能及源码剖析: 1、 通过StreamingContext对象jssc,创建应用程序主原创 2016-08-18 19:54:34 · 1569 阅读 · 0 评论 -
Spark Streaming基于kafka的Direct详解
本博文主要包括一下内容: 1,SparkStreaming on Kafka Direct工作原理机制 2,SparkStreaming on Kafka Direct 案例实战 3,SparkStreaming on Kafka Direct源码解析一:SparkStreaming on Kafka Direct工作原理机制:1、Direct方式特点:(1)Direct的方式是会直接操作ka原创 2016-08-22 11:30:57 · 15153 阅读 · 3 评论