Spark
文章平均质量分 94
简单不过l
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark Streaming提取数据
一、简介Spark Streaming是一个从各种来源获取实时流数据的框架。它支持的流资包括HDFS、Kafka、Flume以及自定义流等。Spark Streaming操作可以从故障中自动恢复,这对于在线数据处理十分重要。Spark Streaming表示使用离散流(DStream)的流数据,该数据流周期性的创建包含最后一个时间窗口中进入的数据的RDD.Spark Streaing可以与单个程序中的其他Spark组建结合,将实时处理与机器学习、SQL和图形操作统一起来。从Spark2.0开始,新的结构原创 2021-01-03 21:22:15 · 1687 阅读 · 1 评论 -
Spark GraphX之pregel
PregelPregel 是 Google 自 2009 年开始对外公开的图计算算法和系统, 主要用于解决无法在单机环境下计算的大规模图论计算问题pregel封装源码首先需要了解一下几个概念顶点的状态激活态和钝化态。顶点激活的条件成功发送一条消息,或者成功接收一条消息def pregel[A: ClassTag]( initialMsg: A, // 参数初始消息 maxIterations: Int = Int.MaxValue, // 最大迭代次数原创 2020-12-06 22:13:30 · 1543 阅读 · 0 评论 -
Spark GraphX之ConnectedComponents
图的连通性介绍无向图顶点的连通性在一个无向图 G 中,若从顶点 i 到顶点 j 有路径相连(当然从 j 到 i 也一定有路径),则称 i 和 j 是连通的。连通图在一个无向图 G 中,如果图中任意两点都是连通的,那么图被称作连通图连通分量无向图G的极大连通子图称为G的连通分量( Connected Component),这里的极大是指顶点个数极大。任何连通图的连通分量只有一个,即是其自身,非连通的无向图有多个连通分量有向图弱连通图有向图的底图(无向图)是连通图,则是弱连通图。简单来原创 2020-11-29 22:29:34 · 2633 阅读 · 0 评论 -
Spark GraphX中的PageRank
PageRank简介PageRank(网页级别),取自Google的创始人LarryPage。它是Google排名运算法则(排名公式)的一部分,是Google用于用来标识网页的等级/重要性的一种方法,是Google用来衡量一个网站的好坏的唯一标准。PageRank算法将网页按重要性进行排序。有了这个排序,人们在搜索关键词时就能优先看到重要且优质的网页,从而更易于得到所需要的信息基于页面链接属性的PageRank算法这种算法虽然简单,却能揭示PageRank的本质web页面抽象首先我们对Web原创 2020-11-26 23:28:52 · 753 阅读 · 0 评论 -
Spark SQL解析json文件
Spark SQL解析json文件一、get_json_object二、from_json三、explode四、案例:解析json格式日志数据数据处理先介绍一下会用到的三个函数:get_json_object、from_json、explode一、get_json_object从一个json 字符串中根据指定的json 路径抽取一个json 对象def get_json_object(e: org.apache.spark.sql.Column,path: String): org.apache.s原创 2020-11-22 22:06:26 · 10308 阅读 · 1 评论 -
Spark SQL
一、SQL on HadoopSQL是一种传统的用来进行数据分析的标准Hive:原始的SQL-on-Hadoop解决方案Impala:和Hive一样,提供了一种可以针对已有Hadoop数据编写SQL查询的方法Presto:类似于Impala,未被主要供应商支持Shark:Spark SQL的前身,设计目标是作为Hive的补充Phoenix:基于HBase的开源SQL查询引擎二、Spark SQLSpark SQL的前身Shark是spark sql的前身,它的设计初衷是让Hive运行在原创 2020-11-18 19:33:51 · 349 阅读 · 0 评论 -
Spark SQL 中的UDF、UDAF、UDTF
UDFUDF(User-defined functions)用户自定义函数,简单说就是输入一行输出一行的自定义算子。(一对一)数据文件:hobbies.txt,第一列为姓名,其他为兴趣爱好alice,jogging&Coding&cookinglina,traveldance&cooking自定义UDF,实现的是计算每个人的兴趣爱好个数// 样例类case class Hobbies(name:String,hobbies:String)object UDFDemo原创 2020-11-18 19:03:39 · 981 阅读 · 0 评论 -
Spark RDD算子(八)mapPartitions, mapPartitionsWithIndex
mapPartions对一个rdd里所有分区遍历原创 2020-11-16 12:17:42 · 626 阅读 · 0 评论 -
Spark RDD算子(七)countByKey,countByValue,collectAsMap
countByKey统计pairRDD(键值对形式的rdd)key出现的次数,返回的结果是一个map,key为原key,value为key出现的次数scala版本val rdd = sc.parallelize(List(("a",1),("a",2),("b",1),("c",3),("a",5)))rdd.countByKeyjava版本JavaRDD<String> rdd1 = sc.parallelize(Arrays.asList("a", "a", "b", "b"原创 2020-11-12 18:40:38 · 1120 阅读 · 0 评论 -
Spark RDD算子(六) aggregate,collect,count,first,fold, reduce,take,top,takeOrdered
这里写目录标题aggregatescala版本java版本collectscala版本java版本countscala版本java版本countByValuescala版本java版本firstscala版本java版本foldscala版本java版本reducescala版本java版本takescala版本java版本topscala版本java版本takeOrderedscala版本java版本aggregatedef aggregate[U](zeroValue: U)(seqOp: (U,原创 2020-11-12 16:57:58 · 432 阅读 · 0 评论 -
Spark RDD(五)groupByKey,cogroup,subtractByKey,join,leftOuterJoin,rightOuterJoin
Spark RDD(五)groupByKeyscala版本java版本cogroupscala版本java版本subtractByKeyscala版本java版本joinscala版本java版本leftOuterjoin及rightOuterJoinscala版本java版本groupByKeygroupByKey会将RDD[key,value] 按照相同的key进行分组,形成RDD[key,Iterable[value]]的形式scala版本val rdd1 = sc.parallelize(L原创 2020-11-11 09:47:39 · 395 阅读 · 0 评论 -
Spark RDD算子(四)combineByKey,reduceByKey,foldByKey,sortByKey
Spark RDD算子(四)combineByKeyscala版本java版本reduceByKeycombineByKeydef combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C): RDD[(K, C)]def combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) =&原创 2020-11-10 20:08:45 · 621 阅读 · 0 评论 -
Spark RDD算子(三) mapToPair,flatMapToPair
Spark RDD算子(三)mapToPairscala版本java版本flatMapToPairscala版本java版本mapToPair此函数会对一个RDD中的每个元素调用f函数,调用f函数后会进行一定的操作把每个元素都转换成一个<K,V>类型的对象,例如:rdd1中包含hello、world元素,经f函数转换后,可以变成类似<hello,1>,<world,1>这样的键值对形式scala版本scala没有该函数,只需要利用map即可实现val rdd1原创 2020-11-10 10:44:42 · 2380 阅读 · 0 评论 -
Spark RDD算子(二)distinct,union,intersection,subtract,cartesian
Spark RDD算子(二)distinctscala版本java版本unionscala版本java版本intersectionscala版本java版本subtractscala版本java版本cartesianscala版本java版本distinctdistinct方法可以去掉重复的元素, 此方法开销很大scala版本例:去除重复元素val rdd2 = sc.parallelize(List(1,2,1,5,3,4,6,6,5,3))rdd2.distinct().collect.fo原创 2020-11-09 19:39:41 · 291 阅读 · 0 评论 -
Spark RDD算子(一) parallelize,makeRDD,textFile,filter,map,flatMap
parallelize通过调用SparkContext的parallelize方法,在一个已经存在的Scala集合上创建的(一个Seq对象)。集合的对象将会被拷贝,创建出一个可以被并行操作的分布式数据集scala版本def parallelize[T](seq: Seq[T],numSlices: Int)(implicit arg0: ClassTag[T]): RDD[T]第一个参数是一个seq集合第二个参数是分区数,可省略返回值是一个RDDscala> sc.paralleli原创 2020-11-09 17:16:05 · 1342 阅读 · 0 评论
分享