SparkSQL 读写数据(十四)

本文详细介绍了Spark SQL如何读写数据,包括直接使用`spark.read.csv()`或`spark.read.format().load()`的方式读取CSV文件,以及默认的Parquet格式读写。还探讨了读写选项设置、CSV文件的特殊选项、保存为持久表的操作,以及分桶、排序和分区等高级特性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Spark SQL 读写数据详解



  开始啦,和SparkCore不一样,现在我们现总结一下Spark SQL读写数据。

在这里插入图片描述

一、前奏

  SparkSession读取数据,可以直接使用spark.read.csv(“path”),也可以使用spark.read.format(“csv”).load(“path”)

    spark.read.csv("data.csv")
    spark.read.format("csv").load("data.csv")

read:创建一个DataFrame的加载数据对象
csv:直接读取csv文件。saprksql提供了部分直接读取的数据源。
format:要读取的数据文件类型
load:加载数据
  有人疑问,为啥有format的存在,我们直接读不就好了吗?那是因为官方仅仅提供了部分文件类型api。所以要加载不存在api的文件类型时候,需要用到format(file_type).load(path)。

二、读写数据

  SparkSQL默认的读写数据文件格式parquet,当我们没有指定要写的文件类型时候,SparkSQL会以parquet形式读写。如下两种方式效果一样:
\

读数据:

    val data: DataFrame = spark
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值