Spark SQL支持DataFrame操作的数据源

最新推荐文章于 2024-07-31 15:54:40 发布

程序员喵姐

最新推荐文章于 2024-07-31 15:54:40 发布

阅读量1.1k

点赞数 1

分类专栏： Hadoop 大数据 Spark 文章标签： spark sql 大数据

本文链接：https://blog.youkuaiyun.com/weixin_42011858/article/details/129579391

版权

文章详细介绍了如何使用SparkSQL操作各种数据源，包括读写Parquet文件、JSON数据集、Hive表以及通过JDBC连接外部数据库。重点讨论了DataFrame的加载保存、Parquet的高效存储格式、Hive表的创建与查询以及通过JDBC进行数据库交互。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

DataFrame提供统一接口加载和保存数据源中的数据，包括：结构化数据、Parquet文件、JSON文件、Hive表，以及通过JDBC连接外部数据源。一个DataFrame可以作为普通的RDD操作，也可以通过（registerTempTable）注册成一个临时表，支持在临时表的数据上运行SQL查询操作。

一、数据源加载保存操作

DataFrame数据源默认文件为Parquet格式，可以通过spark.sql.sources.default参数进行重新修改。
不论何种格式的数据源均采取统一API、read和write进行操作，代码如下：

// 读取parquet格式数据
val df =sqlContext.read.load("file:///$SPARK_HOME/examples/src/main/resources/users.parquet")
// 从DataFrame写数据并保存成Parquet格式
df.write.save("saveusers.parquet")

1，指定选项

Spark支持通过完全限定名称（如org.apache.spark.sql.parquet）指定数据源的附加选项，内置数据源可以使用短名称（json、parquet、jdbc），Spark SQL支持通过format将任何类型的DataFrames转换成其他类型。

val df = sqlContext.read.format("json").load("file:///$SPARK_HOME examples/src/main/resources/people.json")
df.select("name", "age").write.format("parquet").save("namesAndAges.parquet")

2，保存模式

可以通过配置SaveMode指定如何处理现有数据，实现保存模式不使用任何锁定，而且不是原子操作；因此，多路数据写入相同位置是不安全的。当执行overwrite时，写入新数据之前原来数据将被删除。
在这里插入图片描述

3，保存持久表

当使用HiveContext时，DataFrames通过saveAsTable命令保存为持久表使用，与registerTempTable命令不同，saveAsTable实现Dataframe的内容，并创建一个指向Hive Metastore中数据的指针。即使Spark程序重新启动，连接相同Metastore的数据不会发生变化。
默认情况下saveAsTable将创建一个“管理表”，这意味着数据的位置将由Metastore控制，当表被删除时，管理表将表数据自动删除。

二、Parquet文件

Parquet是一种支持多种数据处理系统的存储格式，Spark SQL提供了读写Parquet文件，并且自动保存原始数据的模式。

1，Parquet文件优点

（1）高效，Parquet采取列式存储避免读入不需要的数据，具有极好的性能和GC。
（2）方便的压缩和解压缩，并具有极好的压缩比例。
（3）可以直接固化为Parquet文件，也可以直接读取Parquet文件，具有比磁盘更好的缓存效果。
Spark SQL对读写Parquet文件提供支持，方便加载Parquet文件数据到DataFrame，供Spark SQL操作，也可以将DataFrame写入Parquet文件，并自动保留原始Scheme架构。
在外部数据源方面，Spark对Parquet的支持有了很大的加强，更快的metadata discovery和schema merging；同时能够读取其他工具或者库生成的非标准合法的Parquet文件；以及更快、更鲁棒的动态分区插入。

2，加载数据编程

通过sqlContext.implicits._隐式转换一个RDD为DataFrame，并将DataFrame保存为Parquet文件；加载保存的Parquet文件，重新构建一个DataFrame，注册成临时表，供SQL查询使用。

// 创建sqlContextval 
sqlContext = new org.apache.spark.sql.SQLContext(sc)
// 隐式转换为一个DataFrame
import sqlContext.implicits._
// 使用case定义schema，实现Person接口
case class Person(name: String, age: Int)
// 读取文件创建一个MappedRDD，并将数据写入Person模式类，隐式转换为DataFrame
val peopleDF = sc.textFile(