
spark
链巨人
这个作者很懒,什么都没留下…
展开
-
Apache Spark 介绍的演讲ppt (slice),全英文
这里是本人制作的Apache Spark 介绍的演讲ppt,全英文。这里粘贴部分截图,具体可到相应的链接下载ppt文件,ppt文件中有动画:下载地址:https://download.youkuaiyun.com/download/liangyihuai/13043876谢谢...原创 2020-10-25 13:36:05 · 1201 阅读 · 0 评论 -
Scala堆的方式进行Spark topK词频查询(根据value进行TreeMap排序)
本文使用了两种方法进行spark 的top k词频查询,第S一种方法在很多博客中都介绍到了的,但是这种方法有一个问题,那就是在大数据的情况下效率不高,因为它是通过sparkAPI中的top方法来计算的,这个过程会引起一个耗时的“洗牌“过程;第二种方法在其他博客中基本没有看到,使用的是堆的方式,具体为采用immutable.TreeMap这个自带排序功能的类,但是需要我们稍微修改以下,让它能够根据va原创 2017-02-08 13:40:34 · 3649 阅读 · 0 评论 -
Spark算子汇总和理解(详细)
Spark之所以比Hadoop灵活和强大,其中一个原因是Spark内置了许多有用的算子,也就是方法。通过对这些方法的组合,编程人员就可以写出自己想要的功能。说白了spark编程就是对spark算子的使用。所以熟悉spark算子是spark编程的必修课。这篇文章是本人对于spark算子的汇总和理解。欢迎批评指正 :)groupByKey()描述: Group values with the sa原创 2017-01-12 13:46:50 · 13079 阅读 · 1 评论 -
Spark Learning
Spark Spark SQLSpark StreamingMLib(mechine learing)GraphX(graph)cassandraHBaseMesosHadoopsubmit the spark job.mvn clean && mvn compile && mvn package$SPARK_HOME/bin/spark-submit \ --class c原创 2016-12-30 09:48:11 · 1111 阅读 · 0 评论 -
理解spark闭包
当用户提交了一个用scala语言写的Spark程序,Spark框架会调用哪些组件呢?首先,这个Spark程序就是一个“Application”,程序里面的mian函数就是下图所示的“Driver Program”, 前面已经讲到它的作用,只是,dirver程序的可能运行在客户端,也有可有可能运行在spark集群中,这取决于spark作业提交时参数的选定,比如,yarn-client和yarn-clu原创 2017-02-24 14:27:09 · 6063 阅读 · 7 评论 -
Spark运行模式(local standalond,yarn-client,yarn-cluster,mesos-client,mesos-cluster)
spark部署在单台机器上面时,可以使用本地模式(Local)运行;当部署在分布式集群上面的时候,可以根据自己的情况选择Standalone模式(Spark自带的模式)、YARN-Client模式或者YARN-Cluster模式、Spark on Mesos模式。 本地单机模式所有的Spark进程都运行在一台机器或一个虚拟机上面。Spark任务提交的方式为:spark-submit master=l原创 2017-02-23 17:33:09 · 5439 阅读 · 0 评论 -
RDD(Resilient Distributed Datasets 弹性分布式数据集)
RDD是spark计算框架的核心,spark相比于hadoop的优越性在RDD中体现得淋漓尽致。对于RDD的介绍,最好的资料就是那篇专门介绍RDD的论文了,已经有中文翻译。使用scala编写spark应用,给人的感觉就像是在使用scala编写普通的scala程序,感觉spark编程和scala编程完成融合在一起了– RDD就是scala的一个类。 RDD是一个只读不可修改的数据集,在scala原创 2017-02-24 13:39:18 · 2654 阅读 · 0 评论 -
Spark组件和术语定义
Application:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码;Driver:Spark中的Driver即运行上述Application的main()函数并且创建SparkContext,其中创建SparkContext的目的是为了准原创 2017-02-24 13:59:10 · 984 阅读 · 0 评论