
Spark
文章平均质量分 71
烙痕
这个作者很懒,什么都没留下…
展开
-
Spark编译
Apache Spark™ is a unified analytics engine for large-scale data processing.我所使用的Spark是Spark2.2.0版本1.首先从官网下载源码,解压。2.个人目录介绍app 存放安装软件software 存放软件包的jardata ...原创 2018-07-20 20:44:06 · 697 阅读 · 0 评论 -
SparkStreaming和Kafka整合
Kafka项目在版本0.8和0.10之间引入了一个新的消费者API,因此有两个单独的对应Spark Streaming包可用。请为您的代理选择正确的包和所需的特性;请注意,0.8集成与后来的0.9和0.10代理兼容,但是0.10集成与前面的代理不兼容。 maven依赖: groupId = org.apache.spark artifactId = spark-streaming-ka...原创 2018-09-24 22:33:33 · 1137 阅读 · 0 评论 -
SparkStreaming和Flume整合
maven依赖: <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-flume_2.11</artifactId> <version>${spark.version}</...原创 2018-09-24 21:40:11 · 283 阅读 · 0 评论 -
Spark Streaming介绍及基础操作
Spark Streaming介绍: 基于Spark之上的流处理(rdd) 流:source ==> compute ==> store 离线是特殊的流 letting you write streaming jobs,the same way you write batch jobs out of the box 开箱即用 OOTB(内置的)D...原创 2018-09-18 18:06:40 · 538 阅读 · 0 评论 -
DataFrame/Dataset简介
DataFrame:1.3版本以前叫做SchemaRDD后来改名为DataFrame 1.分布式的数据集 2.按列进行组织的数据集 3.等于关系型数据库 4.等于DateSet[Row]Dataset:A Dataset is a distributed collection of data.DataFrame vs Dataset(1.6出现) 支持的编...原创 2018-09-07 00:09:29 · 1241 阅读 · 0 评论 -
Spark SQL External DataSource
简介: 随着Spark1.2的发布,Spark SQL开始正式支持外部数据源。Spark SQL开放了一系列接入外部数据源的接口,来让开发者可以实现。 这使得Spark SQL支持了更多的类型数据源,如json, parquet, avro, csv格式。只要我们愿意,我们可以开发出任意的外部数据源来连接到Spark SQL。之前大家说的支持HBASE,Cassandra都可以用外部数据...原创 2018-09-12 09:16:37 · 326 阅读 · 0 评论 -
SparkSQL简介
Spark SQL:处理结构化数据的框架在版本的更替中SparkSQL的功能越来越强大,名字也有所改变,目前最新版本中叫SQL, DataFrames and Datasets。所以,用下列英文诠释SparkSQL非常合适Spark SQL is not about SQLSpark SQL is about more then SQLSQL on Hadoop Hive ...原创 2018-09-03 17:06:43 · 229 阅读 · 0 评论 -
Spark Core 02(理论)
Application Application=a driver program + executors 一般来说:1个SparkContext = 1个application=1个SparkShellSpark提交任务不一定须在集群里提交,有gateway就行1个application ==> 有n jobs ==> 有n stages ==> 有n ...原创 2018-08-22 11:33:48 · 200 阅读 · 0 评论 -
Spark core 04(调优)
Collect:扫描所有分区拉取数据,拼接起来输出到driver(数据量大慎用) collect countByKey(Key多慎用) countByValue(Value多慎用) collectAsMap(数据量大慎用,一般配合广播变量使用)take:扫描一个分区拉取数据,拼接起来输出到drivergroupByKey vs reduceByKeyreduceB...原创 2018-08-24 12:50:15 · 236 阅读 · 0 评论 -
Spark Core 03(On Yarn)
Spark on YARN 将spark作业提交到yarn上去执行 spark仅仅作为一个客户端示例:./spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn \/home/hadoop/app/spark-2.3.1-bin-2.6.0-cdh5.7.0/examples/jars/s...原创 2018-08-22 11:34:03 · 238 阅读 · 0 评论 -
Spark Core 01(简单实例)
Core的一些操作就是更灵活复杂的运用wc源数据: 下列源代码叙述了三个案例:package com.ruoze.sparkimport org.apache.spark.{SparkConf, SparkContext}object LogApp { def main(args: Array[String]): Unit = { val sparkConf = ne...原创 2018-08-16 16:07:44 · 314 阅读 · 0 评论 -
RDD创建
RDD详解:https://blog.youkuaiyun.com/u013850277/article/details/73648742RDD创建方式一:Parallelized collections are created by calling SparkContext’s parallelize method on an existing collection in your driver prog...原创 2018-08-08 17:21:30 · 301 阅读 · 0 评论 -
RDD 操作
RDD Operations:这些操作和Scala的操作几乎一样,就不细说了。1.transformations:lazy的操作,不能立即计算结果。相反,Spark只记得应用于一些基本数据集(例如文件)的转换。只有当一个动作action需要返回到驱动程序的结果时才计算这些转换。这种设计使Spark能够更高效地运行。 RDDA==>RDDB (A转换到B,这是两个不同的RDD)且通过...原创 2018-08-15 17:53:16 · 265 阅读 · 0 评论 -
Spark项目的创建&Spark-shell用法
Spark 2.2.0 is built and distributed to work with Scala 2.11 by default. (Spark can be built to work with other versions of Scala, too.) To write applications in Scala, you will need to use a compatib...原创 2018-07-27 22:31:50 · 1064 阅读 · 0 评论 -
什么是RDD
RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。RDD的属性(五大特性):(1)一组分片(P...原创 2018-07-26 21:27:26 · 5536 阅读 · 0 评论 -
Offset管理
offset管理: checkpoint zk、nosql、rdbms kafka一、CheckPoint:对于具有以下要求的应用程序,必须启用检查点: 1.有状态转换的使用——如果在应用程序中使用updateStateByKey或reduceByKeyAnd.(具有逆函数),那么必须提供CheckPoint以允许周期性的RDD检查。 ...原创 2018-10-18 16:57:33 · 575 阅读 · 0 评论