load、save方法、spark sql的几种数据源

最新推荐文章于 2025-09-06 21:58:22 发布

weixin_30587927

最新推荐文章于 2025-09-06 21:58:22 发布

阅读量85

点赞数

CC 4.0 BY-SA版权

文章标签：大数据 json

原文链接：http://www.cnblogs.com/key1309/p/5352365.html

本文介绍如何使用Spark通过load和save方法读取和保存不同格式的数据，包括Parquet和JSON等，并展示了如何处理分区数据和合并元数据。

load、save方法的用法

        DataFrame usersDF = sqlContext.read().load("hdfs://spark1:9000/users.parquet");

        usersDF.select("name", "favorite_color").write()
                .save("hdfs://spark1:9000/namesAndFavColors.parquet");

//load、save方法~指定文件格式
        DataFrame peopleDF = sqlContext.read().format("json")
                .load("hdfs://spark1:9000/people.json");
        peopleDF.select("name").write().format("parquet")

.save("hdfs://spark1:9000/peopleName_java");

parquet数据源：

-》加载parquet数据

DataFrame usersDF = sqlContext.read().parquet("hdfs://spark1:9000/spark-study/users.parquet");

-》parquet分区自动推断

将只有两个字段的user.parquet存到 /users/gender=male/country=us/ 目录下（如下），