RDD和DataFrame转换(Java+Scala)

本文介绍如何使用Java和Scala将RDD转换为DataFrame。通过反射机制,可以解析JavaBean或case class中的元数据,并利用这些信息创建DataFrame。文章还提供了一个实际的例子,展示了从文件读取数据、转换为Person对象并进一步转化为DataFrame的过程。

一:RDD与DataFrame转换
1. 通过反射的方式来推断RDD元素中的元数据。因为RDD本身一条数据本身是没有元数据的,例如Person,而Person有name,id等,而record是不知道这些的,但是变成DataFrame背后一定知道,通过反射的方式就可以了解到背后这些元数据,进而转换成DataFrame。
如何反射?
Scala: 通过case class映射,在case class里面说我们这个RDD里面每个record的不同列的元数据是什么。
Java: 如何描述数据的元数据?构建Java Bean,使用Java Bean构建元数据信息,然后变换成DataFrame,但是此种方法不可以构建DataFrame嵌套类型。
2. 动态获取Schema,我们并不知道RDD的元数据信息,所以只能根据曾经运行时动态构建一份具体的元数据。然后将具体的元数据运行在存在的RDD上。而且这种情况比较常见。
二:代码实战

package com.dt.spark.SparkApps.sql;

import java.util.List;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SQLContext;

/**
 * 使用反射的方式将RDD转换成为DataFrame
    Person [id=1, name=Spark, age=7]
    Person [id=2, name=Hadoop, age=10]
 */
public class RDDToDataFrameByReflection {

    public static void main(String[] args) {
        SparkConf conf = new SparkConf().setMaster("local").setAppName("RDDToDataFrameByReflection");
        JavaSparkContext sc = new JavaSparkContext(conf);
        SQLContext sqlContext = new SQLContext(sc);

        //读取数据
        JavaRDD<String> lines = sc.textFile("E://persons.txt");

        JavaRDD<Person> persons = lines.map(new Function<String,Person>(){

            private static final long serialVersionUID = 1L;

            @Override
            public Person call(String line) throws Exception {
                String[] splited = line.split(",");
                Person p = new Person();
                p.setId(Integer.valueOf(splited[0].trim()));
                p.setName(splited[1].trim());
                p.setAge(Integer.valueOf(splited[2].trim()));
                return p;
            }

        });

        //第一个参数:RDD,第二个参数是JavaBean,Person类
        //第二参数就是封装的JavaBean,JavaBean中封装了Person的元数据信息,
        //通过第二个参数DataFrame也就获得了元数据信息。
        //在底层通过反射的方式获得Person的所有Fields,结合RDD本身,就生成了DataFrame
        DataFrame df = sqlContext.createDataFrame(persons, Person.class);

        df.registerTempTable("persons");
        DataFrame bigDatas = sqlContext.sql("select * from persons where age >= 6");

        //DataFrame => RDD
        JavaRDD<Row> bigDataRDD = bigDatas.javaRDD();

        JavaRDD<Person> result = bigDataRDD.map(new Function<Row,Person>(){

            private static final long serialVersionUID = 1L;

            @Override
            public Person call(Row row) throws Exception {
                //返回具体每条记录
                Person p = new Person();

                /**
                 * 由于数据在DataFrame会进行优化,里面会对元数据进行排序
                 * 顺序可能就不是id name age的顺序了。
                 */
                p.setId(row.getInt(1));
                p.setName(row.getString(2));
                p.setAge(row.getInt(0));

                return p;
            }

        });

        List<Person> personList = result.collect();
        for(Person p : personList){
            System.out.println(p);
        }

    }

}

People.java源码如下:

package com.dt.spark.SparkApps.sql;

import java.io.Serializable;

//因为底层是反射,要求JavaBean是public
//此时需要序列化,因为是分布式方式。
public class Person implements Serializable{

    private static final long serialVersionUID = 1L;
    private int id;
    private String name;
    private int age;    public int getId() {
        return id;
    }
    public void setId(int id) {
        this.id = id;
    }
    public String getName() {
        return name;
    }
    public void setName(String name) {
        this.name = name;
    }
    public int getAge() {
        return age;
    }
    public void setAge(int age) {
        this.age = age;
    }

    @Override
    public String toString() {
        return "Person [id=" + id + ", name=" + name + ", age=" + age + "]";
    }
}

1.作业:
使用Scala在IDE中实战RDD和DataFrame转换操作

package com.dataguru.xzl.two.com.dt



import org.apache.spark.sql.SQLContext

import org.apache.spark.{SparkConf, SparkContext}



/**

 * Created by xzl on 2016/3/16.

 */

object RDD2DataFrameByReflection {

  //case class 要放在main方法外面

  case class Person(id: Int, name: String, age: Int)

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setMaster("local").setAppName("RDD2DataFrameByReflection")

    val sc = new SparkContext(conf)

    val sqlContext = new SQLContext(sc)



    // 导入语句,可以隐式地将RDD转化成DataFrame

    import sqlContext.implicits._

    val lines = sc.textFile("d://persons.txt")

    val df = lines.map(_.split(",")).map { splited =>

      Person(splited(0).trim().toInt, splited(1), splited(2).trim().toInt)

    }.toDF()

    df.registerTempTable("persons")

    val bigDatas = sqlContext.sql("select * from persons where age >= 6")

    val personList = bigDatas.javaRDD.collect()

    for (p <- personList.toArray) {

      println(p)

    }

  }

}
Scala中,从RDD转换得到DataFrame有两种常见的方法: ### 通过反射的方式 通过反射的方式来推断RDD元素中的元数据,利用case class映射,在case class里面说明RDD里面每个record的不同列的元数据是什么,进而转换DataFrame。示例代码如下: ```scala package com.lm.spark.sql import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} object RDD2DataFrame { case class Person(id: Int, name: String, age: Int) def main(args: Array[String]) { val conf = new SparkConf().setAppName("RDDTODATAFRAME").setMaster("local") val sc = new SparkContext(conf) val sqlcontext = new SQLContext(sc) import sqlcontext.implicits._ val lines = sc.textFile("resources/person.txt") val df = lines.map(_.split(",")).map { splited => Person(splited(0).trim().toInt, splited(1), splited(2).trim().toInt) }.toDF() df.registerTempTable("persons") val bigDatas = sqlcontext.sql("select * from persons where age >= 6") val personList = bigDatas.javaRDD.collect() for (p <- personList.toArray) { println(p) } sc.stop() } } ``` 在这个示例中,定义了`Person`这个case class,用于描述RDD中元素的结构,然后将RDD转换DataFrame [^1][^3]。 ### 手动指定Schema 步骤如下: 1. RDD中的所有列转为一个`Row`。 2. 通过`Struct`相关方法创建一个`Schema`。 3. 通过`SparkSession`创建DataFrame。 示例代码如下: ```scala // 1.RDD中的所有列转为一个row val row = rdd.map(x => Row(x._1,x._2,x._3,x._4)) // 2.通过Struct相关方法创建一个schema // 创建一个字符串,用于创建structField // 这里的abcd就是后面转成DataFrame后的列名 val schemaString = "a,b,c,d" // 创建structField // 分割字符,一个个塞入StructField中 val sf = schemaString.split(",").map(x => StructField(x, StringType, nullable = true)) // 创建schema val schema = StructType(sf) // 3.通过spark创建DataFrame // 创建一个sparksession val spark = SparkSession.builder().master("local[*]").appName("test").getOrCreate() // 创建DataFrame val dftable = spark.createDataFrame(row, schema) ``` 在这个示例中,首RDD转换为`Row`对象的RDD,然后手动定义了`Schema`,最后使用`SparkSession`的`createDataFrame`方法将`Row`对象的RDD`Schema`组合成DataFrame [^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值