【图书介绍】《Spark SQL大数据分析快速上手》-优快云博客
《Spark SQL大数据分析快速上手》【摘要 书评 试读】- 京东图书
Spark SQL支持通过DataFrame接口对各种数据源进行操作。DataFrame既可用于关系转换操作(指的是map、filter这样的DataFrame转换算子操作,同RDD的转换操作一样是惰性求值),也可用于创建临时视图,即将DataFrame注册为临时视图,进而对数据运行SQL查询。
本节介绍使用Spark SQL数据源加载和保存数据的一般方法。
6.1.1 通用load/save函数
Spark SQL的默认数据源格式为Parquet格式。当数据源为Parquet文件时,Spark SQL可以方便地进行读取,甚至可以直接在Parquet文件上执行查询操作。修改配置项spark.sql.sources.default,可以修改默认数据源格式。
以下示例通过通用的load\save方法对Parquet文件进行读取和存储
val usersDF = sparkSession.read.load("examples/src/main/resources/users.parquet")
usersDF.select("name", "favorite_color").write.save ("namesAndFavColors.parquet")
正如前面所讲,sparkSession是Spark SQL的编程主入口,在读取数据源时,需要调用sparkSession.read方法返回一个DataFrameReader对象,进而通过其提供的、读取各种结构化数据源的方法来读取数据源,其中包括通用的load方法,返回的是DataFrame对象。

最低0.47元/天 解锁文章
2163

被折叠的 条评论
为什么被折叠?



