
数据开发--spark
东华果汁哥
大家好!我叫赖德发,欢迎您来到我的博客。
展开
-
【spark RDD】RDD编程
%spark/*创建RDD*/val data0=sc.parallelize(Array(1,2,3,3))/*************************************对一个数据的RDD进行转换操作************************************************//*map*/val data1=data0.map(x=>x+1)//每个元素原创 2017-06-13 10:03:46 · 1425 阅读 · 0 评论 -
【spark 学习笔记】Spark学习笔记精华(1)
好记性不如烂笔头,顺便就开始用手机练习打字了,也分享给感兴趣的朋友学习下。1.take可以查看RDD中前面几个元素,而且代价很小。rdd.take(5)2.可以用takeSample对数据进行采样,它的第一个参数表示是否允许重复采样。rdd.takeSample(true,3)3.top返回数据集中按给定ordering方式排序的最大的k条记录,许多场景都要用到它,比如对每条记录打分之后,检查得分原创 2017-06-13 10:05:19 · 801 阅读 · 0 评论 -
【spark 累加器】spark 累加器求1+2+3+4+5+......+100
%sparkval accum = sc.accumulator(0)val num=1 to 100sc.parallelize(num).foreach(x => accum += x)val total_sum=accum.valueprintln(total_sum)accum: org.apache.spark.Accumulator[Int] = 0num: scala.co原创 2017-06-13 09:59:43 · 1838 阅读 · 0 评论 -
【spark 数据框】Spark数据框dataFrame
%spark/*DataFrame*/val data=sc.parallelize(List(("Alice",21),("Bob",24))) val people=data.toDF("name","age")people.show()/*增加一列*/val df1=(1 to 5).map(i=>(i,i*2)).toDF("single","double")df1.show()原创 2017-06-13 10:02:28 · 1667 阅读 · 0 评论 -
【spark 词频统计】spark单词进行计数升级版
下面的代码对文件里的单词进行计数,筛选出现过10次的单词,然后对这些单词中的每个字符出现的次数进行计数。最后,通过collect action操作触发job的执行。这些转换中有两个是stage边界(它们有宽依赖)。代码中的两个reduceByKey转换是生成3个stage的原因:val words = sc.textFile("textFilePath").flatMap(_.split(' '))原创 2017-06-14 10:07:30 · 3713 阅读 · 0 评论 -
【spark 读写数据】数据源的读写操作
通用的 Load/Save 函数在最简单的方式下,默认的数据源(parquet 除非另外配置通过spark.sql.sources.default)将会用于所有的操作。Parquet 是一个列式存储格式的文件,被许多其他数据处理系统所支持。Spark SQL 支持对 Parquet 文件的读写还可以自动的保存源数据的模式val usersDF = spark.read.load("e原创 2018-01-18 15:27:40 · 966 阅读 · 0 评论