Spark SQL数据加载、存储概述

最新推荐文章于 2025-10-18 10:01:22 发布

原创

最新推荐文章于 2025-10-18 10:01:22 发布 · 1.5k 阅读

29 ·

CC 4.0 BY-SA版权

文章标签：

#spark #sql #大数据

【图书介绍】《Spark SQL大数据分析快速上手》-优快云博客

《Spark SQL大数据分析快速上手》【摘要书评试读】- 京东图书

大数据与数据分析_夏天又到了的博客-优快云博客

Spark SQL支持通过DataFrame接口对各种数据源进行操作。DataFrame既可用于关系转换操作（指的是map、filter这样的DataFrame转换算子操作，同RDD的转换操作一样是惰性求值），也可用于创建临时视图，即将DataFrame注册为临时视图，进而对数据运行SQL查询。

本节介绍使用Spark SQL数据源加载和保存数据的一般方法。

6.1.1 通用load/save函数

Spark SQL的默认数据源格式为Parquet格式。当数据源为Parquet文件时，Spark SQL可以方便地进行读取，甚至可以直接在Parquet文件上执行查询操作。修改配置项spark.sql.sources.default，可以修改默认数据源格式。

以下示例通过通用的load\save方法对Parquet文件进行读取和存储

val usersDF = sparkSession.read.load("examples/src/main/resources/users.parquet")

usersDF.select("name", "favorite_color").write.save ("namesAndFavColors.parquet")

正如前面所讲，sparkSession是Spark SQL的编程主入口，在读取数据源时，需要调用sparkSession.read方法返回一个DataFrameReader对象，进而通过其提供的、读取各种结构化数据源的方法来读取数据源，其中包括通用的load方法，返回的是DataFrame对象。

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

夏天又到了

关注关注

19
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【互联网大厂实习经验】Spark SQL数据倾斜调优圣经（含实战分享）

不积跬步，无以至千里

08-29

2163

在滴滴实习期间接触到的调优实战，先整理如下，希望可以相互学习。

Spark SQL的基本架构与DataFrame概述

日常分享数据分析开发、编程语言内容

03-14

1097

Spark SQL的基本架构与DataFrame概述

参与评论您还未登录，请先登录后发表或查看评论

【Spark九十二】Spark SQL操作Parquet格式的数据

bit1129的博客

04-14

1480

1.关于Spark SQL操作Parquet 因为Parquet文件中包含了Schema信息，也就是说，Parquet文件是Schema自解释的，因此Spark SQL操作Parquet时，不需要指定Schema，因为Spark SQL可以根据Parquet文件中的Schema信息，解析出Parquet文件对应的SQL Schema 本文中的idAndName.parquet内容如下：从中...

Spark SQL数据源：Parquet文件

梁辰兴的博客

06-14

3827

Apache Parquet是Hadoop生态系统中任何项目都可以使用的列式存储格式，不受数据处理框架、数据模型和编程语言的影响。Spark SQL支持对Parquet文件的读写，并且可以自动保存源数据的Schema。当写入Parquet文件时，为了提高兼容性，所有列都会自动转换为“可为空”状态。与Protocol Buffer、Avro和Thrift一样，Parquet也支持Schema合并。

第65课：Spark SQL下Parquet深入进阶

someby的博客

11-07

579

内容： Spark SQl下的Parquet的序列化 SparkSQL下的Parquet源码解析 SparkSQL的Parquet总结一、Spark SQl下的Parquet的序列化 1.block:parquet层面和row group是一个意思 2.row group:逻辑概念，用于对row进行分区。由数据集中每个column的column ch...

Spark（三）-- SparkSQL扩展（数据读写） -- 读写 Parquet、Json 格式文件(二)

happy-vicky的博客

09-26

1769

7.3 读写 Parquet 格式文件目标理解Spark读写Parquet文件的语法理解Spark读写Parquet文件的时候对于分区的处理什么时候会用到Parquet? 在ETL中,Spark经常扮演T的职务, 也就是进行数据清洗和数据转换. 为了能够保存比较复杂的数据, 并且保证性能和压缩率, 通常使用Parquet...

SparkSQL-Parquet文件

上海一九四三

08-21

1925

Parquet是一种支持多种数据处理系统的柱状的数据格式，Parquet文件中保留了原始数据的模式。Spark SQL提供了Parquet文件的读写功能。列式存储和行式存储相比有哪些优势呢？可以跳过不符合条件的数据，只读取需要的数据，降低IO数据量。压缩编码可以降低磁盘存储空间。由于同一列的数据类型是一样的，可以使用更高效的压缩编码（例如Run Length Encoding和Delt...

16、Spark SQL：数据存储、加载与性能优化

最新发布

white的博客

10-18

本文深入介绍了Spark SQL在数据存储、加载及性能优化方面的核心机制与实践方法。内容涵盖内置数据源如Parquet、ORC和JSON的特点与适用场景，详细讲解了DataFrameWriter和DataFrameReader的使用方式，包括saveAsTable、save、insertInto和jdbc等方法的对比与应用。文章重点剖析了Catalyst优化器的工作流程及其在逻辑与物理计划优化中的作用，并展示了如何通过explain查看执行计划。同时，介绍了Tungsten项目对内存管理与执行性能的提升机制

十、Spark SQL数据源 - Parquet文件

zlwm000的博客

06-17

981

Apache Parquet是Hadoop生态系统中任何项目都可以使用的列式存储格式，不受数据处理框架、数据模型和编程语言的影响。Spark SQL支持对Parquet文件的读写，并且可以自动保存源数据的Schema。当写入Parquet文件时，为了提高兼容性，所有列都会自动转换为“可为空”状态。加载和写入Parquet文件时，除了可以使用load()方法和save()方法外，还可以直接使用Spark SQL内置的parquet()方法执行命令：val usersdf = spark.read.parque

Spark SQL的Parquet那些事儿.docx

大数据星球-浪尖

04-28

1795

Parquet是一种列式存储格式，很多种处理引擎都支持这种存储格式，也是sparksql的默认存储格式。Spark SQL支持灵活的读和写Parquet文件，并且对par...

spark SQL学习parquet文件和people.json文件

01-03

users.parquet people.json spark ,spark学习中的parquet文件和json文件

4.3Spark SQL数据源-Parquet文件

qq_65274143的博客

06-15

1717

SparkSQL数据源

weixin_62399938的博客

05-08

1521

save()方法支持设置保存模式，使用可用于指定将Dataset保存到数据源的预期行为，指定如何处理现有数据（例如，执行时设置类型为Overwrite，则数据将在写出新数据之前被删除。）但需要注意的这些保存模式不使用任何锁定并且不是原子的。SaveModeScala/Java含义（默认）将Dataset保存到数据源时，如果数据已存在，则会引发异常。将Dataset保存到数据源时，如果数据/表已存在，则Dataset的内容应附加到现有数据。覆盖模式意味着在将Dataset。

Spark-SQL 读写jdbc

m0_46538284的博客

01-04

879

读jdbc中的信息 import java.util.Properties import org.apache.spark.sql.{DataFrame, SparkSession} object CreateDataFrameFromJDBC { def main(args: Array[String]): Unit = { //创建SparkSession val spark = SparkSession.builder() .appName(this....

SparkSQL初级(聚合，Parquet,JSON,JDBC,Hive表)

南国的技术栈

12-15

938

紧接着系列博客上一篇Spark05-SparkSQL入门的学习，这篇博客主要讲解一些SparkSQL初级使用。聚合（Aggregations）内置的DataFrames函数提供常见的聚合，如count()、countDistinct()、avg()、max()、min()等。此外，用户并不局限于预定义的聚合函数，还可以创建自己的聚合函数。无用户定义的聚合函数(Untyped User-D...

Spark SQL读取parquet文件

BigData

09-02

3002

Parquet是一种流行的列式存储格式，可以高效地存储具有嵌套字段的记录，还可以针对相同类型的列进行压缩。介绍：使用：

Spark SQL下的Parquet使用最佳实践和代码实战

热门推荐

sundujing的博客

05-17

1万+

一：Spark SQL下的Parquet使用最佳实践1，过去整个业界对大数据的分析的技术栈的Pipeline一般分为一下两种方式：A）Data Source -> HDFS -> MR/Hive/Spark(相当于ETL) -> HDFS Parquet -> SparkSQL/impala -> Result Service(可以放在DB中，也有可能被通过JDBC/ODBC来作为数据服务使用)；B

列式存储kudu基于spark的操作

weixin_30294709的博客

03-24

260

1、通过kudu客户端创建表 valkuduContext =newKuduContext("kuduMaster:7051",sc)valsQLContext =newSQLContext(sc)valkuduTableName ="spark_kudu_table"valkuduOptions: Map[String, String] =Map("kudu....

spark SQL （四）数据源 Data Source----Parquet 文件的读取与加载

周君的个人博客

12-30

7192

数据源 Data Source----Parquet 文件的读取与加载

头歌 Spark SQL 多数据源操作

03-13

### 多数据源操作概述在Apache Spark SQL环境中处理多个数据源是一项常见需求，允许用户从不同类型的存储系统读取和写入数据。通过Spark SQL可以轻松集成多种数据源，包括但不限于Hive表、JSON文件、Parquet文件以及JDBC连接的传统数据库[^1]。对于多数据源的操作主要涉及以下几个方面： #### 数据加载与保存 - **加载外部数据**：可以通过`DataFrameReader`接口指定不同的格式来读取来自各种来源的数据到DataFrame对象中。 ```scala val dfFromJson = spark.read.json("examples/src/main/resources/people.json") ``` - **保存结果至目标位置**：利用`DataFrameWriter`类可将转换后的数据写出给定路径下的特定文件格式或者关系型数据库表格里。 ```scala df.write.mode(SaveMode.Overwrite).jdbc(url=jdbcUrl, table="my_table", connectionProperties=connectionProps) ``` #### 跨数据源查询优化当涉及到跨异构数据源执行复杂SQL查询时，为了提高性能应该考虑如下策略: - 使用广播变量加速小规模维度表与其他大规模事实表之间的关联运算； - 对频繁访问的数据集实施缓存机制减少重复扫描开销； #### 实现案例分析假设存在两个独立的数据源——一个是位于本地磁盘上的CSV文档集合表示销售记录，另一个则是远程MySQL服务器上托管的产品目录信息。现在希望构建一份报告统计每种商品类别在过去一个月内的销售额情况，则具体做法如下所示： ```sql -- 创建临时视图以便后续引用 CREATE OR REPLACE TEMP VIEW sales AS SELECT * FROM csv.`/path/to/sales/*.csv`; CREATE OR REPLACE TEMP VIEW products AS SELECT * FROM jdbc.`jdbc:mysql://dbserver/products`; -- 执行JOIN并聚合得到最终报表 SELECT p.category, SUM(s.amount) as total_sales FROM sales s JOIN products p ON s.product_id=p.id WHERE date >= DATE_SUB(CURRENT_DATE(), 30) GROUP BY p.category; ``` 上述例子展示了如何借助于Spark SQL强大的抽象能力简化了原本复杂的ETL流程，并且能够高效地完成对分布式的海量数据进行实时分析的任务。