【大数据分析】Spark SQL查询： DataFrame的保存与加载

sword_csdn

已于 2022-08-11 12:39:58 修改

阅读量903

点赞数

CC 4.0 BY-SA版权

分类专栏： Spark 文章标签： spark 数据分析 sql

于 2020-05-10 00:55:31 首次发布

本文链接：https://blog.youkuaiyun.com/sword_csdn/article/details/106030019

本文介绍了Spark如何使用DataFrame进行数据的保存和加载，涉及Json、ORC、Parquet等格式，以及saveAsTable、insertInto、save方法的使用，并提到了JDBC连接关系型数据库的操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Spark内置支持多种文件格式和数据库。包括JDBC、Hive、Json、ORC、Parquet、MySQL、PostgreSQL。

1、内置数据源

Spark支持的数据格式每个都有各自的优点，对于何时使用何种格式需要结合具体的场景，内置数据源格式为Json、ORC、Parquet

（1）Json

Json格式通常用于web开发，非常常见，简单易用，但是它不是一种有效的永久数据存储格式。

（2）ORC

优化的行列文件格式（ORC）旨在提供一种更有效的方式来存储Hive数据，以前是用于在Hadoop中存储数据的标准格式

（3）Parquet

Parquet在Hadoop生态中更受欢迎，因为它被设计为独立于任何特定的框架，并且没有不必要的依赖。

（4）Postgresql

import org.apache.log4j.{Level, Logger}
import org.apache.spark.sql.SparkSession
object Testsql {
  def main(args: Array[String]): Unit = {
    Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)
    Logger.getLogger("org.apache.spark").setLevel(Level.INFO)
    Logger.getLogger("org.spark_project.jetty").setLevel(Level.WARN)
    val spark = SparkSession.builder(

最低0.47元/天解锁文章