SparkSQL数据读写
DataFrameReader
DataFrameWriter
DataFrameReader 对应的组件 SCHEMA OPTION FORMAT
DataFrameReader 有两种访问方式,
一种是使用 load 方法加载, 使用 format 指定加载格式,
还有一种是使用封装方法, 类似 csv, json, jdbc 等
//.第一种形式 READ + FORMAT +load读取
spark.read
.format("csv")
.option("header",value=true)
.option("inferSchema",value = true)
.load("dataset/1231.csv")
//2.第二种形式 使用具体文件类型读取 READ
spark.read
.option("header",value=true)
.option("inferSchema",value = true)
.csv("dataset/1231.csv")
DataFrameWriter 也有两种使用方式, 一种是使用 format 配合 save,
默认的 format 是 Parquet
还有一种是使用封装方法, 例如 csv, json, saveAsTable 等
def parquet(path: String): Unit = { format("parquet").save(path)}
def csv (path: String): Unit = { format("csv").save(path)}
DataFrameWriter
增量操作
使用spark做增量操作的时候,
insertInto 和 mode(SaveMode.A

本文介绍了如何使用SparkSQL读取FTP上的数据,包括DataFrameReader的load和特定格式的读取方法,以及DataFrameWriter的保存操作,如Parquet和CSV。讨论了insertInto和saveAsTable在增量操作中的区别,并提供了将数据写入Hive表的步骤,强调了数据确认、表创建和任务配置的注意事项。
最低0.47元/天 解锁文章
311

被折叠的 条评论
为什么被折叠?



