
spark
Claroja
这个作者很懒,什么都没留下…
展开
-
Spark TopN
数据格式为: http://python.cn/wei http://python.cn/wei http://java.cn/zhang http://java.cn/zhang package spark import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Teach...原创 2019-10-28 22:45:40 · 237 阅读 · 0 评论 -
Scala Array
参数 描述 def apply( x: T, xs: T* ): Array[T] 创建指定对象 T 的数组, T 的值可以是 Unit, Double, Float, Long, Int, Char, Short, Byte, Boolean。 def concat[T]( xss: Array[T]* ): Array[T] 合并数组 def copy( src: An...原创 2019-10-28 22:44:37 · 157 阅读 · 0 评论 -
Scala 字符串
方法 描述 char charAt(int index) 返回指定位置的字符 int compareTo(Object o) 比较字符串与对象 int compareTo(String anotherString) 按字典顺序比较两个字符串 int compareToIgnoreCase(String str) 按字典顺序比较两个字符串,不考虑大小写 String ...原创 2019-10-28 22:44:21 · 215 阅读 · 0 评论 -
Spark WordCount
package spark import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object ScalaWordCount { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppN...原创 2019-10-28 22:44:07 · 106 阅读 · 0 评论 -
Spark
参考: https://www.cnblogs.com/xuliangxing/p/7279662.html原创 2019-10-28 22:43:49 · 163 阅读 · 0 评论 -
Spark 广播变量
占坑原创 2019-10-28 22:43:26 · 112 阅读 · 0 评论 -
Spark RDD Cache & Checkpoint
cache方法,没有生成新的RDD,也没有触发任务执行,只会标记该RDD分区对应的数据(第一次触发Action时)放入到内存 checkpint方法,没有生成新的RDD,也是没有触发Action,也是标记以后触发Action时会将数据保存到HDFS中 ...原创 2019-10-28 22:43:05 · 105 阅读 · 0 评论 -
Spark RDD Action
#spark action val rdd1 = sc.parallelize(List(1,2,3,4,5), 2) # 2是分区,就是task数量,默认是可用的核数 rdd1.saveAsTextFile(“hdfs://node:9000/test”) # 会有三个结果 val rdd = sc.textFile(“hdfs://node:9000/wc”) rdd.partitions...原创 2019-10-28 22:42:51 · 131 阅读 · 0 评论 -
Spark RDD Transformation
RDD Transformation特点 1.lazy,不存储数据 只记录操作 2.生成新的RDD sortBy val rdd2 = sc.parallelize(List(5,6,4,7,3,8,2,9,1,10)).map(_*2).sortBy(x=>x,true) # 升序 val rdd2 = sc.parallelize(List(5,6,4,7,3,8,2,9,1,10))...原创 2019-10-28 22:42:38 · 174 阅读 · 0 评论 -
Spark Partitioner
挖坑原创 2019-10-28 22:42:22 · 103 阅读 · 0 评论 -
Spark RDD
RDD并不存储数据,会在Driver端转换为Task,下发到Executor分散在多台集群上的数据 创建RDD的三种方式 1.读取文件:sc.textFile("hdfs://node:9000/wc") 2.将Driver端的scala集合转换为RDD:sc.parallelize(arr) 3.RDD的Transformation会生成一个新的RDD 读取文件 1.读取本地文件: val in...原创 2019-10-28 22:39:41 · 130 阅读 · 0 评论 -
spark 安装
cd /usr/local 进入要安装的目录 tar -zvxf spark-2.0.2-bin-hadoop2.6.tgz 安装 启动spark 在sprk/conf/spark-env.sh添加JAVA_HOME export JAVA_HOME=/usr/local/jdk1.8.0_221/ 运行sbin目录下的start-all.sh 提交第一个spark应用到集群中运行 bin/sp...原创 2019-09-29 22:30:08 · 163 阅读 · 0 评论