
spark
amanikong
这个作者很懒,什么都没留下…
展开
-
一些重要的spark术语
Application spark应用程序,说白了,就是用户基于spark api开发的程序,一定是通过一个有main方法的类执行的,比如java开发spark,就是在eclipse中,建立的一个工程Application Jar 这个就是把写好的spark工程,打包成一个jar包,其中包括了所有的第三方jar依赖包,比如java中,就用maven+asse转载 2016-11-08 11:22:40 · 439 阅读 · 0 评论 -
spark 启动模式
deploy mode,分为两种1、client模式:主要用于测试2、cluster模式:主要用于生产环境无论是standalone、yarn,都是分为这两种模式的standalone client、standalone clusteryarn client、yarn clusterstandalone模式下,基于spark的Master进程和Worke原创 2016-11-08 11:23:36 · 538 阅读 · 0 评论 -
spark coalesce和repartition的区别
repartition(numPartitions:Int):RDD[T]和coalesce(numPartitions:Int,shuffle:Boolean=false):RDD[T]他们两个都是RDD的分区进行重新划分,repartition只是coalesce接口中shuffle为true的简易实现,(假设RDD有N个分区,需要重新划分成M个分区)1)、N<M。一般情况下N个分区有转载 2016-11-21 15:58:14 · 1671 阅读 · 0 评论 -
spark streamingcontext 一些注意点
有两种创建StreamingContext的方式:val conf = new SparkConf().setAppName(appName).setMaster(master);val ssc = new StreamingContext(conf, Seconds(1));StreamingContext,还可以使用已有的SparkContext来创建val sc转载 2017-04-12 17:14:24 · 2032 阅读 · 0 评论