
spark
文章平均质量分 65
Happywuw
学习如逆水行舟,不近则退!
由于目前公司有很不错的学习平台,以及个人笔记平台,暂停博客更新。但也会定期把笔记批量更新到博客。
展开
-
Spark Streaming Backpressure
1、为什么引入Backpressure 默认情况下,Spark Streaming通过Receiver以生产者生产数据的速率接收数据,计算过程中会出现batch processing time > batch interval的情况,其中batch processing time 为实际计算一个批次花费时间, batch interval为Stream原创 2017-11-23 11:24:09 · 534 阅读 · 0 评论 -
Spark技能——Spark-2.1.0
0.0 前言本文主要基于最新的Spark 2.1.0版本。阅读本文可以对Spark 2.1.0的学习过程,运行流程,关键组件,原理有所了解。文章有点长,你也可以直接阅读感兴趣的部分,但是还是建议全面了解。1.0 简介Spark是Apache软件基金会下的分布式系统开源项目。在官网中这样概况这个项目Apache Spark is a fast and general engine for large...转载 2018-05-06 19:16:57 · 601 阅读 · 0 评论 -
2018面试——9.Spark专题
1,Spark相关知识相关知识原创 2018-05-06 19:14:30 · 299 阅读 · 0 评论 -
Spark读取数据库(Mysql)的四种方式讲解
目前Spark支持四种方式从数据库中读取数据,这里以Mysql为例进行介绍。文章目录1 一、不指定查询条件2 二、指定数据库字段的范围3 三、根据任意字段进行分区4 四、通过load获取一、不指定查询条件 这个方式链接MySql的函数原型是:defjdbc(url:String, tabl转载 2017-12-07 10:40:10 · 4717 阅读 · 0 评论 -
Spark学习笔记总结-超级经典总结
Spark简介 spark 可以很容易和yarn结合,直接调用HDFS、Hbase上面的数据,和hadoop结合。配置很容易。 spark发展迅猛,框架比hadoop更加灵活实用。减少了延时处理,提高性能效率实用灵活性。也可以与hadoop切实相互结合。 spark核心部分分为RDD。Spark SQL、Spark Streaming、MLlib、Gr转载 2017-11-27 23:42:25 · 2069 阅读 · 0 评论 -
Spark踩坑记——数据库(Hbase+Mysql)
前言在使用Spark Streaming的过程中对于计算产生结果的进行持久化时,我们往往需要操作数据库,去统计或者改变一些值。最近一个实时消费者处理任务,在使用spark streaming进行实时的数据流处理时,我需要将计算好的数据更新到hbase和mysql中,所以本文对spark操作hbase和mysql的内容进行总结,并且对自己踩到的一些坑进行记录。Spark Stream转载 2017-12-06 18:20:32 · 529 阅读 · 0 评论 -
Spark算子:RDD基本转换操作(1)–map、flagMap、distinct
关键字:Spark算子、Spark RDD基本转换、map、flatMap、distinctmap将一个RDD中的每个数据项,通过map中的函数映射变为一个新的元素。输入分区与输出分区一对一,即:有多少个输入分区,就有多少个输出分区。hadoop fs -cat /tmp/lxw1234/1.txthello worldhello sparkhello hive转载 2017-11-23 17:35:01 · 491 阅读 · 0 评论 -
kafka中的offset
官方文档定义:kafka是一个分布式、可分区、多副本的日志系统。kafka术语:massage: kafka中最基本的传递对象,有固定格式。topic: 一类消息,如page view,click行为等。producer: 产生信息的主体,可以是服务器日志信息等。consumer: 消费producer产生话题消息的主体。broker: 消息处理结点,多个broker组成kafka转载 2017-11-23 15:43:24 · 660 阅读 · 0 评论 -
Spark Streaming
Spark StreamingSpark Streaming 类似于 Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming 有高吞吐量和容错能力强这两个特点。Spark Streaming 支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ 和简单的 TCP 套接字等等。数据输入后可以用 Spark 的高度抽象原语如转载 2017-11-23 14:02:51 · 577 阅读 · 0 评论 -
Spark技能——Spark在360商业数据部的应用实践
一Spark的应用现状1Spark需求背景随着数据规模的持续增长,数据需求越来越多,原有的以MapReduce为代表的Hadoop平台越来越显示出其局限性。主要体现在以下两点:任务执行时间比较长。特别是某些复杂的SQL任务,或者一些复杂的机器学习迭代。不能很好的支持像机器学习、实时处理这种新的大数据处理需求。Spark作为新一代大数据处理的计算平台,使得我们可以用Spark这一种平台统一处理数据处...转载 2018-05-06 19:18:47 · 582 阅读 · 0 评论