spark dataframe 和 scala Map互相转换


spark 和scala 之间的数据转换,真是非常令人头疼,但是使用场景又非常的多,拆箱装箱实在是浪费时间,这篇文章我们来看看

spark dataframe 和 scala Map互相转换

如何创建一个只有数据schema 的空dataframe?

root
|-- k: string (nullable = true)
|-- v: integer (nullable = false)
You simply define schema for a data frame and use empty RDD[Row]:

import org.apache.spark.sql.types.{
   
   
    StructType,<
Scala中,从RDD转换得到DataFrame有两种常见的方法: ### 通过反射的方式 通过反射的方式来推断RDD元素中的元数据,利用case class映射,在case class里面说明RDD里面每个record的不同列的元数据是什么,进而转换DataFrame。示例代码如下: ```scala package com.lm.spark.sql import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} object RDD2DataFrame { case class Person(id: Int, name: String, age: Int) def main(args: Array[String]) { val conf = new SparkConf().setAppName("RDDTODATAFRAME").setMaster("local") val sc = new SparkContext(conf) val sqlcontext = new SQLContext(sc) import sqlcontext.implicits._ val lines = sc.textFile("resources/person.txt") val df = lines.map(_.split(",")).map { splited => Person(splited(0).trim().toInt, splited(1), splited(2).trim().toInt) }.toDF() df.registerTempTable("persons") val bigDatas = sqlcontext.sql("select * from persons where age >= 6") val personList = bigDatas.javaRDD.collect() for (p <- personList.toArray) { println(p) } sc.stop() } } ``` 在这个示例中,定义了`Person`这个case class,用于描述RDD中元素的结构,然后将RDD转换DataFrame [^1][^3]。 ### 手动指定Schema 步骤如下: 1. 先将RDD中的所有列转为一个`Row`。 2. 通过`Struct`相关方法创建一个`Schema`。 3. 通过`SparkSession`创建DataFrame。 示例代码如下: ```scala // 1.先将RDD中的所有列转为一个row val row = rdd.map(x => Row(x._1,x._2,x._3,x._4)) // 2.通过Struct相关方法创建一个schema // 创建一个字符串,用于创建structField // 这里的abcd就是后面转成DataFrame后的列名 val schemaString = "a,b,c,d" // 创建structField // 分割字符,一个个塞入StructField中 val sf = schemaString.split(",").map(x => StructField(x, StringType, nullable = true)) // 创建schema val schema = StructType(sf) // 3.通过spark创建DataFrame // 创建一个sparksession val spark = SparkSession.builder().master("local[*]").appName("test").getOrCreate() // 创建DataFrame val dftable = spark.createDataFrame(row, schema) ``` 在这个示例中,首先将RDD转换为`Row`对象的RDD,然后手动定义了`Schema`,最后使用`SparkSession`的`createDataFrame`方法将`Row`对象的RDD`Schema`组合成DataFrame [^2]。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

shiter

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值