spark 读取ftp_Spark开发-SparkSQL读写数据

最新推荐文章于 2023-11-26 12:14:00 发布

理论编码带师

最新推荐文章于 2023-11-26 12:14:00 发布

阅读量935

点赞数

CC 4.0 BY-SA版权

文章标签： spark 读取ftp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_32321921/article/details/114470032

本文介绍了如何使用SparkSQL读取FTP上的数据，包括DataFrameReader的load和特定格式的读取方法，以及DataFrameWriter的保存操作，如Parquet和CSV。讨论了insertInto和saveAsTable在增量操作中的区别，并提供了将数据写入Hive表的步骤，强调了数据确认、表创建和任务配置的注意事项。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

SparkSQL数据读写

DataFrameReader

DataFrameWriter

DataFrameReader 对应的组件 SCHEMA OPTION FORMAT

DataFrameReader 有两种访问方式,

一种是使用 load 方法加载, 使用 format 指定加载格式,

还有一种是使用封装方法, 类似 csv, json, jdbc 等

//.第一种形式 READ + FORMAT +load读取

spark.read

.format("csv")

.option("header",value=true)

.option("inferSchema",value = true)

.load("dataset/1231.csv")

//2.第二种形式使用具体文件类型读取 READ

spark.read

.option("header",value=true)

.option("inferSchema",value = true)

.csv("dataset/1231.csv")

DataFrameWriter 也有两种使用方式, 一种是使用 format 配合 save,

默认的 format 是 Parquet

还有一种是使用封装方法, 例如 csv, json, saveAsTable 等

def parquet(path: String): Unit = { format("parquet").save(path)}

def csv (path: String): Unit = { format("csv").save(path)}

DataFrameWriter

增量操作

使用spark做增量操作的时候,

insertInto 和 mode(SaveMode.A

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。