
Spark
顾国玉
这个作者很懒,什么都没留下…
展开
-
解决spark on yarn每次都传递一堆jars的问题
问题复现spark-submit \--master yarn \--deploy-mode cluster \--class com.bigdata.homework.standby.JDBCApp \--jars /home/hadoop/lib/mysql-connector-java-5.1.47.jar,/home/hadoop/lib/config-1.2.1.jar \-...原创 2019-10-19 23:22:40 · 1989 阅读 · 4 评论 -
spark中RDD的五大特性
RDD是什么下面这个是Spark源码中RDD的第一行描述 A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable,partitioned collection of elements that can be operated on in parallel...原创 2019-10-01 22:50:14 · 2878 阅读 · 0 评论 -
Spark中排序的几种方式
有如下的数据,我们需要对其进行排序,字段的意思分别为:商品,价格,数量val rdd = sc.parallelize(List("iphone5 1000 20", "iphone6 2000 50","iphone7 2000 100", "iphone11 5000 50"))需求:把商品按照价格升序排序一: 元祖import org.apache.spark.{Spark...原创 2019-10-02 16:18:36 · 7432 阅读 · 0 评论 -
Spark的核心术语
官网地址:http://spark.apache.org/docs/latest/cluster-overview.htmlGlossary术语表标黄色的代表比较重要术语描述Application由driver program和集群上的executors组成Application jar用户创建的spark应用程序。所依赖的jar包在运行时传入Driver...原创 2019-10-02 18:20:43 · 282 阅读 · 0 评论 -
Spark中textFile产生了几个RDD
我们可以用toDebugString方法看看产生了几个RDDval rdd = sc.textFile("file:///home/hadoop/data/wc.dat")rdd.toDebugString从下图中可以看出,产生了2个RDD,HadoopRDD和MapPartitionsRDD为什么是两个RDD?我们进入textFile源码中进行查看def textFile( ...原创 2019-10-02 19:22:34 · 996 阅读 · 0 评论 -
Spark的wc过程分析
有如下代码,我们需要做wc统计def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setMaster("local[2]").setAppName("my-test") val sc = new SparkContext(sparkConf) val list = sc.para...原创 2019-10-02 21:33:12 · 604 阅读 · 0 评论