
Spark
BestbpF
在校大学生
展开
-
Spark RDD---api(map&reduce)
RDD简介RDD是spark中的抽象数据结构,任何数据在Spark中都被表示为RDD。RDD可被看成一个数组,但RDD中的数据是可以分区存储的,能够分布在不同的机器上。Spark应用程序就是把需要处理的数据转化为RDD,然后进行一系列的transforms(转换)和action(操作/执行),从而得到结果 RDD的创建1、将数组转化为RDDval a = sc.parallelize(1原创 2017-11-07 23:21:24 · 332 阅读 · 0 评论 -
Spark架构原理
http://www.cnblogs.com/tgzhu/p/5818374.htmlApache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了一个全面转载 2017-10-30 19:38:51 · 475 阅读 · 0 评论 -
RDD五大特性
RDD(Resilient Distributed Datasets,弹性分布式数据集)五大特性1、A list of partitions一系列的分片:比如说128M一片,类似于Hadoop中的split2、A function for computing each split每个分片上都有一个函数去迭代/执行/计算它3、A list of dependencies on o原创 2017-10-30 21:13:36 · 494 阅读 · 0 评论 -
spark小应用二:分组分数排序(SCALA)
需求: 1)按照第一个字段进行分组 2)对分组中的第二个字段进行排序(降序) 3)获取每个分组Top Key(比如获取前三个值) 数据:aa 78bb 98aa 80cc 98aa 69cc 87bb 97cc 86aa 97bb 78bb 34cc 85bb 92cc 72bb 33bb 231、按照第一个字段进行分组val rdd = sc.textFile原创 2017-11-01 11:33:40 · 3103 阅读 · 0 评论 -
spark小应用一:wordcount,按词频降序(SCALA)
val rdd = sc.textFile("hdfs://mycluster/user/bpf/sparkApp/wordcount/input")val wordcount = rdd.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)这样得到的结果并没有按照某种规则排序按照value值进行降序。(出现次数多的在前) 思路:key value反原创 2017-11-01 11:11:54 · 1681 阅读 · 0 评论 -
Spark Streaming与Flume集成小测试:PUSH的方式
需求:监控目录/opt/datas/spark-flume下的wctotal.log文件,并将文件内容通过Spark Streaming 进行批处理,在屏幕上输出event的数量实验在伪分布式环境下,用local的模式启动spark(CDH5.5.0版本) 为了看每条代码比较清楚,采用bin/spark-shell –master local[2]方式启动 集成这两个功能需要将三个jar包导入到原创 2017-11-01 23:14:39 · 270 阅读 · 0 评论