65、Spark SQL之数据源之通用的load和save操作

最新推荐文章于 2023-07-10 09:26:51 发布

原创最新推荐文章于 2023-07-10 09:26:51 发布 · 1.4k 阅读

0 ·

CC 4.0 BY-SA版权

Spark入坑专栏收录该内容

207 篇文章

订阅专栏

通用的load和save操作

对于Spark SQL的DataFrame来说，无论是从什么数据源创建出来的DataFrame，都有一些共同的load和save操作。load操作主要用于加载数据，创建出DataFrame；save操作，主要用于将DataFrame中的数据保存到文件中。

Java版本

    DataFrame df = sqlContext.read().load("E:\\testdata\\sparksql\\users.parquet");
    df.select(df.col("name"), df.col("favorite_color")).write().save("E:\\testdata\\sparksql\\users_java");

Scala版本

    val df = sqlContext.read.load("E:\\testdata\\sparksql\\users.parquet")
    df.select(df.col("name"),df.col("favorite_color")).write.save("E:\\testdata\\sparksql\\users_scala")

手动指定数据源类型

也可以手动指定用来操作的数据源类型。数据源通常需要使用其全限定名来指定，比如parquet是org.apache.spark.sql.parquet。但是Spark SQL内置了一些数据源类型，比如json，parquet，jdbc等等。实际上，通过这个功能，就可以在不同类型的数据源之间进行转换了。比如将json文件中的数据保存到parquet文件中。默认情况下，如果不指定数据源类型，那么就是parquet。

Java版本

    DataFrame df = sqlContext.read().format("json").load("E:\\testdata\\sparksql\\people.json");
    df.write().format("parquet").save("E:\\testdata\\sparksql\\people_java_parquet");

    df = sqlContext.read().format("parquet").load("E:\\testdata\\sparksql\\users.parquet");
    df.select(df.col("name"), df.col("favorite_color")).write().format("json").save("E:\\testdata\\sparksql\\users_java_json");

Scala版本

    val df = sqlContext.read.format("json").load("E:\\testdata\\sparksql\\people.json")
    df.write.format("parquet").save("E:\\testdata\\sparksql\\people_scala_parquet")

    val df1 = sqlContext.read.format("parquet").load("E:\\testdata\\sparksql\\users.parquet")
    df1.select(df1.col("name"),df1.col("favorite_color")).write.format("json").save("E:\\testdata\\sparksql\\users_scala_json")

Save Mode

Spark SQL对于save操作，提供了不同的save mode。主要用来处理，当目标位置，已经有数据时，应该如何处理。而且save操作并不会执行锁操作，并且不是原子的，因此是有一定风险出现脏数据的。

Save Mode	意义
SaveMode.ErrorIfExists (默认)	如果目标位置已经存在数据，那么抛出一个异常
SaveMode.Append	如果目标位置已经存在数据，那么将数据追加进去
SaveMode.Overwrite	如果目标位置已经存在数据，那么就将已经存在的数据删除，用新数据进行覆盖
SaveMode.Ignore	如果目标位置已经存在数据，那么就忽略，不做任何操作