
Spark
文章平均质量分 68
huangyinzhao
这个作者很懒,什么都没留下…
展开
-
spark算子之 1.RDD基本转换 2.键-值RDD转换 3.Action操作篇
摘要:RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里的数据集RDD有两种操作算子: Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住 了数据集的逻辑操作 Ation(执行):触...转载 2018-04-16 14:35:48 · 315 阅读 · 0 评论 -
Spark RDD 整理
目录 Spark计算模型... 1 1. 课程目标... 1 1.1. 熟练使用RDD的算子完成计算... 1 1.2. 掌握RDD的原理... 1 2. 弹性分布式数据集RDD.. 1 2.1. RDD概述... 1 2.1.1. 什么是RDD.. 1 2.1.2. RDD的特性... 1...原创 2018-05-28 00:15:56 · 220 阅读 · 0 评论 -
DataFrame和DataSet和RDD
简介:官网: DataFrames are just Dataset of Rows in Scala and Java API. These operations are also referred as “untyped transformations” in contrast to “typed transformations” come with strongly typed Scala/...转载 2018-05-24 11:11:16 · 416 阅读 · 0 评论 -
sparkstreaming读取kafka的两种方式
spark streaming提供了两种获取方式,一种是同storm一样,实时读取缓存到内存中;另一种是定时批量读取。这两种方式分别是:Receiver-baseDirect一 、Receiver-base:Spark官方最先提供了基于Receiver的Kafka数据消费模式。不过这种方式是先把数据从kafka中读取出来,然后缓存在内存,再定时处理。如果这时候集群退出,而偏移量又没处理好的话,数据...转载 2018-05-24 15:55:35 · 659 阅读 · 0 评论 -
Spark的RDD操作之Join大全!
一、RDD的Join操作有哪些?(一)Join:Join类似于SQL的inner join操作,返回结果是前面和后面集合中配对成功的,过滤掉关联不上的。源代码如下:[plain] view plain copy/** * Return an RDD containing all pairs of elements with matching keys in `this` and `other`...转载 2018-05-29 11:59:31 · 2410 阅读 · 0 评论 -
kafka直连的代码和解释(还有几个类没有搞明白)
1 .KafkaUtils.createDirectStream[ 这四个泛型:k就是topic,v就是topic对应的内容从kafkKd (解码器)vd(解码器)] 这个方法是在各个分区没有偏移量时的用的。后面的参数是(ssc,kafkaparam,topics)是怎么回事,尤其是kafkaparam这个参数??? 答:我们直接KafkaUtils.createDirectStream...转载 2018-06-12 10:47:32 · 2883 阅读 · 0 评论 -
SparkSQL中UDF和UDAF
UDF: User Defined Function,用户自定义的函数,函数的输入是一条具体的数据记录,实现上讲就是普通的Scala函数;UDAF:User Defined Aggregation Function,用户自定义的聚合函数,函数本身作用于数据集合,能够在聚合操作的基础上进行自定义操作;实质上讲,例如说UDF会被Spark SQL中的Catalyst封装成为Expression,最终会...转载 2018-05-29 19:43:00 · 522 阅读 · 0 评论 -
Scala中Json解析String,获得多级key
代码块导入包import scala.util.parsing.json._def main(args: Array[String]): Unit = { def regJson(json:Option[Any]) = json match { case Some(map: Map[String, Any]) => map// case None =>...转载 2018-05-29 21:47:09 · 3593 阅读 · 0 评论 -
Hive和SQL的窗口函数
分析窗口函数应用场景:(1.2重要,其他的了解就行)(1)用于分区排序(2)动态Group By(3)Top N(4)累计计算(5)层次查询Hive分析窗口函数(一) SUM,AVG,MIN,MAXHive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍,将陆续发布。今天先看几个基础的,SUM、AVG、MIN、MAX。用于实现分组内所有和连续累积的统计。数据准备...转载 2018-05-30 11:42:20 · 2921 阅读 · 0 评论 -
MyEclipse上传项目到github(详细)
提交项目本文参考:点击打开链接第一步:在github上注册一个账号:点击打开链接第二步:登陆github并创建一个仓库a.点击右上角‘’+‘’号,开始创建一个新的仓库b.给仓库起个名字,设置权限为公共的,点击创建c.获取仓库的URL第三步:在MyEclipse中右击项目------->Team------->Share Project第六步:选中Git 点击Next第七步:一定记得勾选...转载 2018-06-20 21:04:19 · 2573 阅读 · 1 评论 -
spark性能优化指南---数据倾斜和shuffle调优
前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的...转载 2018-06-10 11:52:15 · 337 阅读 · 0 评论 -
Scala中高级算子,combineByKey
为什么单独讲解combineByKey?因为combineByKey是Spark中一个比较核心的高级函数,其他一些高阶键值对函数底层都是用它实现的。诸如 groupByKey,reduceByKey等等如下给出combineByKey的定义,其他的细节暂时忽略(1.6.0版的函数名更新为combineByKeyWithClassTag)[java] view plain copydef combi...转载 2018-05-16 19:32:32 · 1148 阅读 · 0 评论 -
CSV
CSV是一种通用的、相对简单的文件格式,被用户、商业和科学广泛应用。最广泛的应用是在程序之间转移表格数据,而这些程序本身是在不兼容的格式上进行操作的(往往是私有的和/或无规范的格式)。因为大量程序都支持某种CSV变体,至少是作为一种可选择的输入/输出格式。例如,一个用户可能需要交换信息,从一个以私有格式存储数据的数据库程序,到一个数据格式完全不同的电子表格。最可能的情况是,该数据库程序可以导出数据...转载 2018-05-23 10:52:06 · 499 阅读 · 0 评论 -
telnet 的yum安装,使用flume前先安装此
安装:yum install telnet-serveryum install telnet.* 查询xinetd的状态: [root@localhost ~]# service xinetd status xinetd (pid 2967) 正在运行... 启动service xinetd start 连接:telnet ip 端口...原创 2018-04-11 14:49:47 · 389 阅读 · 0 评论 -
DataFrame 创建方式和操作(Spark 中的核心知识,用来计算结构化数据)
一、 scala版本1.1:用javabean类型的rdd创建 val sparkConf = new SparkConf().setMaster("local").setAppName("adaa") val sc = new SparkContext(sparkConf) var sqlcontext = new SQLCont...原创 2018-06-11 21:38:57 · 1198 阅读 · 0 评论 -
大数据采集,运算,存储的一系列软件
原创 2018-06-11 21:39:30 · 1119 阅读 · 0 评论 -
scala中常用的10个方法
操作 Scala 集合时,一般会进行两类操作:转换操作(transformation )和行动操作(actions)(有些人喜欢叫他为聚合操作)。第一种操作类型将集合转换为另一个集合,第二种操作类型返回某些类型的值。1、mapmap 是 Scala 集合最常用的一个函数。它的功能十分强大:[html] view plain copyvalnumbers= Seq(1,2,3,4,5,6) /...转载 2018-05-10 15:39:26 · 3097 阅读 · 1 评论 -
RDD 直接存入MySQL,以及直接读取MySQL中数据
在spark中,直接把RDD文件存到数据库中。 object IPLocation { //每个分区连接一次MySQL,并且存储数据。 val data2MySQL =(iterator: Iterator[(String, Int)]) => { var conn: Connection =null var ps :PreparedStatement = null //这...原创 2018-05-17 21:46:06 · 3410 阅读 · 0 评论 -
spark中wordcount执行的数据流向
转载 2018-05-18 13:42:41 · 298 阅读 · 0 评论 -
shell之命令行的高级文本处理命令
高级命令行文本处理工具之cut-sort-wccutcut命令可以从一个文本文件或者文本流中提取文本列。cut语法[root@www ~]# cut -d'分隔字符' -f fields <==用于有特定分隔字符[root@www ~]# cut -c 字符区间 <==用于排列整齐的信息选项与参数:-d :后面接分隔字符。与 -f一起使用;-f :依据 -d ...翻译 2018-04-27 23:03:49 · 965 阅读 · 0 评论 -
spark数据缓存到内存中的方法
RDD.cache()一般用法: sc.textFile(" 路径").cache 数据就已经缓存到内存中,可以提高运算速度,当然要注意,我们的内存容量原创 2018-05-18 19:18:44 · 6091 阅读 · 0 评论 -
spark 多文件输出
MultipleOutputFormat allowing to write the output data to different output files. MultipleOutputFormat可以将相似的记录输出到相同的数据集。在写每条记录之前,MultipleOutputFormat将调用generateFileNameForKeyValue方法来确定需要写入的文件名。通常,我...转载 2018-05-20 15:57:05 · 1698 阅读 · 0 评论 -
spark调优之基础篇--算子调优和资源调优
前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更快、...转载 2018-06-10 15:42:24 · 1000 阅读 · 1 评论