
spark
奔跑者runner
you want something,just go get it
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark学习之路 (一)Spark初识
本文转载自:https://www.cnblogs.com/qingyunzong/p/8886338.html讨论QQ:1586558083目录一、官网介绍1、什么是Spark二、Spark的四大特性1、高效性2、易用性3、通用性4、兼容性三、Spark的组成四、应用场景 正文回到顶部一、官网介绍1、什么是Spark官网地址:http://spark.apache.org/A...转载 2019-04-21 22:11:32 · 149 阅读 · 0 评论 -
SparkSql 以jdbc为数据源
https://blog.youkuaiyun.com/someby/article/details/83892120 1.SparkSQL操作关系数据库意义 2.SparkSQL操作关系数据库一、通过SparkSQL操作关系数据库意义 1.SparkSQL可以通过jdbc从传统关系型数据库中读...转载 2019-06-09 13:20:19 · 1978 阅读 · 1 评论 -
SparkSQL语法及API
为什么80%的码农都做不了架构师?>>> ...转载 2019-05-30 16:36:33 · 5805 阅读 · 1 评论 -
SparkSQL简介及入门
为什么80%的码农都做不了架构师?>>> ...转载 2019-05-30 16:32:30 · 278 阅读 · 0 评论 -
Spark(三)RDD与广播变量、累加器
https://www.cnblogs.com/frankdeng/p/9301653.html一、RDD的概述1.1 什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许...转载 2019-04-30 17:08:00 · 316 阅读 · 0 评论 -
Spark(二)CentOS7.5搭建Spark2.3.1分布式集群
https://www.cnblogs.com/frankdeng/p/9294812.html一 下载安装包1 官方下载官方下载地址:http://spark.apache.org/downloads.html2 安装前提Java8 安装成功zookeeper 安装参考:CentO...转载 2019-04-30 17:03:15 · 230 阅读 · 0 评论 -
Spark(一)Spark简介
https://www.cnblogs.com/frankdeng/p/9067140.html1 什么是Spark官网地址:http://spark.apache.org/Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行...转载 2019-04-30 16:58:48 · 272 阅读 · 0 评论 -
Spark Streaming Window窗体相关操作
SparkStreaming之window滑动窗口应用,Spark Streaming提供了滑动窗口操作的支持,从而让我们可以对一个滑动窗口内的数据执行计算操作。每次掉落在窗口内的RDD的数据,会被聚合起来执行计算操作,然后生成的RDD,会作为window DStream的一个RDD。网官图中所示,就是对每三秒钟的数据执行一次滑动窗口计算,这3秒内的3个RDD会被聚合起来进行处理,然后...转载 2019-04-30 16:52:10 · 266 阅读 · 0 评论 -
SparkStreaming之updateStateByKey
我们一直执行 hadoop fs -put a.txt /hdfs 的话, 第1次执行是(spark,4) 第2次执行是(spark,4) 第3次执行是(spark,4)但是如果我们想要这种效果呢? 第1次执行是(spark,4) 第2次执行是(spark,8) 第3次执行是(spark,12)这样的话,就重用了历史数据。package com.llcc.sparkSql...转载 2019-04-30 16:50:25 · 193 阅读 · 0 评论 -
Spark学习之路 (三)Spark之RDD
https://www.cnblogs.com/qingyunzong/p/8899715.html讨论QQ:1586558083目录一、RDD的概述1.1 什么是RDD?1.2 RDD的属性1.3 WordCount粗图解RDD二、RDD的创建方式2.1 通过读取文件生成的2.2 通过并行化的方式创建RDD2.3 其他方式三、RDD编程API3.1 Transformation3.2 Acti...转载 2019-04-24 17:45:47 · 262 阅读 · 0 评论 -
Spark学习之路 (二)Spark2.3 HA集群的分布式安装
https://www.cnblogs.com/qingyunzong/p/8888080.html讨论QQ:1586558083目录一、下载Spark安装包1、从官网下载2、从微软的镜像站下载3、从清华的镜像站下载二、安装基础三、Spark安装过程 1、上传并解压缩2、为安装包创建一个软连接3、进入spark/conf修改配置文件4、配置环境变量四、启动1、先启动zookeeper集...转载 2019-04-23 14:11:23 · 215 阅读 · 0 评论 -
StructStreaming 概述
综述Structured Streaming是构建在Spark SQL引擎上的流式数据处理引擎,使用Scala编写,具有容错功能。你可以像在使用静态RDD数据一样来编写你的流式计算过程。当流数据连续不断的产生时,Spark SQL将会增量的,持续不断的处理这些数据并将结果更新到结果集中。你可以使用DataSet/DataFrame API来展现数据流的aggregations, event-...转载 2019-06-29 17:27:02 · 3216 阅读 · 0 评论