
【大数据-Spark】
Spark流处理
一棵树~
just do it
展开
-
spark 2.X 疑难问题汇总
https://blog.youkuaiyun.com/xwc35047/article/details/53933265/转载 2018-10-11 11:04:31 · 241 阅读 · 0 评论 -
Spark(一)Spark概述
目录:1、Spark概述1.1、Spark是什么?1.2、Spark基本原理1.3、Spark软件栈1.4、Spark与Hadoop1.5、运行流程及特点1.6、常用术语1.7、Spark的适用场景1、Spark概述Spark官网关于Spark2.2.0需要以下条件:maven3.3.9+Java8+Spark2.2.01.1、Spark是什么?...原创 2019-01-03 15:02:03 · 705 阅读 · 0 评论 -
SparkStreaming(七)操作函数之Join Operations、Output Operations
目录:5.3 Join Operations5.3.1、DStream对象之间的Join5.3.2、DStream和dataset之间的join5.4、Output Operations5.4.1、print()5.4.2、saveAsTextFiles(prefix, [suffix])5.4.3、saveAsObjectFiles(prefix, [suffix])...原创 2019-01-04 08:47:30 · 483 阅读 · 0 评论 -
SparkStreaming(六)操作函数之Window Operations
目录:5.2、Window Operations5.2.1、window(windowLength, slideInterval)5.2.2、countByWindow(windowLength,slideInterval)5.2.3、reduceByWindow(func, windowLength, slideInterval)5.2.4、reduceByKeyA...原创 2019-01-04 08:47:16 · 1048 阅读 · 0 评论 -
SparkStreaming(五)操作函数之Transformations
目录:5、SparkStreaming中的操作函数分析5.1、Transformations5.1.1、map(func)5.1.2、flatMap(func)5.1.4、union(otherStream)5.1.5、count()5.1.6、reduce(func)5.1.8、reduceByKey(func, [num Tasks])5.1.9、join(...原创 2019-01-04 08:46:59 · 629 阅读 · 0 评论 -
SparkStreaming(四)转化操作
4、转化操作DStream的转化操作可以分为无状态(stateless)和有状态(stateful)两种。 无状态转化操作中,每个批次的处理不依赖于之前批次的数据。 有状态转化操作需要使用之前批次的数据或者是中间结果来计算当前批次的数据。有状态转化操作包括基于滑动窗口的转化操作和追踪状态变化的转化操作。4.1、无状态转化操作无状态转化操作就是把简...原创 2019-01-04 08:46:44 · 326 阅读 · 0 评论 -
SparkStreaming(三)离散流(DStream)
3、离散流(DStream)SparkStreaming使用”微批次”的架构,把流式计算当做一系列连续的小规模批处理来对待。SparkStreaming从各种输入源中读取数据,并把数据分组为小的批次。新的批次按均匀的时间间隔创建出来。在每个时间区间开始的时候,一个新的批次就创建出来,在该区间内收到的数据都会被添加到这个批次中。在时间区间结束时,批次停止增长。时间区间的大小是由批处理间隔这个参数...原创 2019-01-03 16:22:42 · 976 阅读 · 0 评论 -
SparkStreaming(二)入门案例
2、入门案例2.1、计算单词的数量Java版本jdk.1.8以下:public class WordCountOnline { public static void main(String[] args) throws InterruptedException { SparkConf conf = new SparkConf(); /* * 1、配置应用名称以及配置两...原创 2019-01-03 16:12:43 · 389 阅读 · 0 评论 -
SparkStreaming(一)概述
1、概述1.1、SparkStreaming是什么Spark Streaming是对核心Spark API的一个扩展,它能够实现对实时数据流的流式处理,并具有很好的可扩展性、高吞吐量和容错性。Spark Streaming支持从多种数据源提取数据,如:Kafka、Flume、Twitter、ZeroMQ、Kinesis以及TCP套接字,并且可以提供一些高级API来表达复杂的处理算法,如:m...原创 2019-01-03 16:09:31 · 3040 阅读 · 0 评论 -
Spark(五)数据读取与保存
目录:5、数据读取与保存5.1、文件格式5.1.1、文本文件5.1.2、JSON5.1.3、逗号分隔值与制表符分隔值5.1.4、SequenceFile5.1.5、对象文件5.2、文件系统5.2.1、本地/“常规”文件系统5.2.3、HDFS5、数据读取与保存5.1、文件格式表5-1:Spark支持的一些常见格式 格式文件 ...原创 2019-01-03 15:49:36 · 610 阅读 · 0 评论 -
Spark(四)Spark 键值对操作
目录:4、键值对操作4.1、创建PairRDD4.2、PairRDD的转化操作4.2.1、聚合操作4.2.2、数据分组4.2.3、连接4.2.4、数据排序4.3、PairRDD的行动操作4.4、数据分区4.4.1、获取RDD的分区方式4.4.2、从分区中或获益的操作4.3.3、影响分区方式的操作4.4.4、示例:PageRank4、键值对操作...原创 2019-01-03 15:45:11 · 561 阅读 · 0 评论 -
Spark(三)Spark RDD编程
目录:3、RDD编程3.1、RDD基础3.2、创建RDD3.3、RDD操作3.3.1、转化操作3.3.2、行动操作3.3.3、惰性求值3.4、向Spark传递函数3.5、常见的转化操作和行动操作3.5.1、基本RDD3.5.2、在不同RDD类型间转换3.6、持久化(缓存)3.6.1、SparkRDD持久化特点3.6.2、如何持久化3.6....原创 2019-01-03 15:33:13 · 498 阅读 · 0 评论 -
Spark之键值对操作-Java篇(三)
一、简介 键值对 RDD 是 Spark 中许多操作所需要的常见数据类型。本章就来介绍如何操作键值对 RDD。键值对 RDD 通常用来进行聚合计算。我们一般要先通过一些初始 ETL(抽取、转 化、装载)操作来将数据转化为键值对形式。键值对 RDD 提供了一些新的操作接口(比如 统计每个产品的评论,将数据中键相同的分为一组,将两个不同的 RDD 进行分组合并等)。二、创建Pair RDD...原创 2018-10-21 20:20:51 · 500 阅读 · 0 评论 -
Spark之RDD操作编程-Java篇(二)
RDD 介绍RDD,全称Resilient Distributed Datasets(弹性分布式数据集),是Spark最为核心的概念,是Spark对数据的抽象。RDD是分布式的元素集合,每个RDD只支持读操作,且每个RDD都被分为多个分区存储到集群的不同节点上。除此之外,RDD还允许用户显示的指定数据存储到内存和磁盘中,掌握了RDD编程是SPARK开发的第一步。1:创建操作(creatio...原创 2018-10-21 20:04:08 · 272 阅读 · 0 评论 -
Spark之概念和框架介绍(一)
一:什么是sparkApache Spark 是专为大规模数据处理而设计的快速通用的计算引擎, 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目,速度之快足见过人之处,Spark以其先进的设...原创 2018-10-21 19:54:32 · 5093 阅读 · 0 评论 -
Spark常用算子详解
https://blog.youkuaiyun.com/qq_32595075/article/details/79918644?utm_source=blogxgwz4转载 2018-10-17 14:06:12 · 164 阅读 · 0 评论 -
Spark中mapToPair和flatMapToPair的区别
1.JavaPairRDD<K2,V2> mapToPair(PairFunction<T,K2,V2> f)此函数会对一个RDD中的每个元素调用f函数,其中原来RDD中的每一个元素都是T类型的,调用f函数后会进行一定的操作把每个元素都转换成一个<K2,V2>类型的对象2.JavaPairRDD<K2,V2> flatMapToPair(Pa...原创 2018-10-16 17:18:12 · 962 阅读 · 0 评论 -
Spark2.x之RDD支持java8 lambda表达式
1、非lambda实现的java spark wordcount程序public class WordCount { public static void main(String[] args) { SparkConf conf = new SparkConf().setAppName("appName").setMaster("local"); Ja...原创 2018-10-11 14:50:35 · 817 阅读 · 0 评论 -
Spark(二)Spark安装入门
目录:2、Spark安装入门2.1、Spark安装部署2.1.1、Spark下载:2.1.2、安装前准备:2.1.3、配置环境变量:2.1.4、配置Spark环境:2.1.5、启动Spark集群2.2、Spark中的Scale的shell2.3、Spark核心概念简介2.4、独立应用2.4.1、初始化SparkContext2.4.2、构建独立应用...原创 2019-01-03 15:08:45 · 760 阅读 · 0 评论