
大数据学习
kopunk
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
利用case class导入有header的txt文件&利用csv创建dataFrame的时候使用schema去定义dataFrame
1.有header的txt文件创建DataFrame:利用 mapPartitionsWithIndexval teacherRdd = sc.textFile("src/test/teacher.txt")val teacherRddSchema = teacherRdd.mapPartitionsWithIndex((idx, iter) => if (idx == 0) i...原创 2019-07-28 23:09:32 · 255 阅读 · 0 评论 -
从csv文件创建dataFrame
读取CSV文件创建dataFrame的写法:val df1 = spark.read .format("csv") .option("header","true") .option("inferSchema","true") .load("src/test/resource/1.csv")完整写法:import org.apache....原创 2019-07-21 22:32:43 · 2178 阅读 · 0 评论 -
利用case class将RDD转化为DataFrame
先定义一个case clascase class people(id:Int, name:String, age:Int)读取txt,转化为RDDval rddpeople = sc.textFile("source path")利用case class给RDD一个schemaval peopleSchema = rddpeople.map(row => row.s...原创 2019-07-21 22:19:50 · 947 阅读 · 0 评论 -
Scala中运用windowing函数
先创建一个rank spec// 用df("salary").asc代表升序排列,desc代表降序val rankSpec = Window.partitionBy("age").orderBy(df("salary").desc)然后为自己的表添加一列rankval sararyRank = df.withColumn("rank",dense_rank().over(ra...原创 2019-07-21 22:56:35 · 518 阅读 · 0 评论