SparkSQL系列-6、外部数据源 DataSource？

最新推荐文章于 2025-04-21 17:35:17 发布

技术武器库

最新推荐文章于 2025-04-21 17:35:17 发布

阅读量1.1k

点赞数

分类专栏：大数据专栏文章标签： spark 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/l848168/article/details/126419845

版权

大数据专栏专栏收录该内容

83 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

传送门：大数据系列文章目录

官方网址：http://spark.apache.org/、 http://spark.apache.org/sql/
在这里插入图片描述

目录

SparkSQL支持哪些外部数据源？
数据源与格式
加载/保存数据
parquet 数据
text 数据
json 数据
csv 数据
rdbms 数据
hive 数据
- spark-shell 集成 Hive
- IDEA 集成 Hive

SparkSQL支持哪些外部数据源？

在SparkSQL模块，提供一套完成API接口，用于方便读写外部数据源的的数据（从Spark 1.4版本提供），框架本身内置外部数据源：

了解本专栏

超级会员免费看

技术武器库

博客等级

码龄8年

Java领域优质创作者

博客专家认证

230
原创

482
点赞

1178
收藏

2万+
粉丝

关注

私信

热门文章

分类专栏

大数据专栏付费 83篇
feign 1篇
网盘 2篇
服务器 1篇
xmind 1篇
Excel 1篇
Dubbo 1篇
JAVA-GUI专栏 2篇
Spring系列 1篇
ChatGPT
ShardingSphere 5篇
吐血整理 55篇
JAVA多线程与并发 18篇
Redis 6篇
SpringCloud 7篇
SpringBoot 11篇
Linux 16篇
Docker 3篇
Mybatis 8篇
Mysql 7篇
IDEA
JVM 5篇
Netty 1篇
ËlasticaSearch 1篇
Jmeter 2篇
Jenkins 3篇
Java基础 3篇
Windows 4篇

展开全部收起

上一篇：: SparkSQL系列-5、什么是Dataset？

下一篇：: SparkSQL系列-7、自定义UDF函数？

最新评论

EasyPoi表头如何合并导出？
技术武器库: map 不能转换为 collection ，它们是2个类型
EasyPoi表头如何合并导出？
douxnxa: 一直在报这个错： java.lang.ClassCastException: java.util.HashMap cannot be cast to java.util.Collection at cn.afterturn.easypoi.excel.export.base.ExportCommonService.getListCellValue(ExportCommonService.java:263) ~[easypoi-base-4.4.0.jar:na] at cn.afterturn.easypoi.excel.export.base.BaseExportService.createCells(BaseExportService.java:83) ~[easypoi-base-4.4.0.jar:na] at cn.afterturn.easypoi.excel.export.ExcelExportService.insertDataToSheet(ExcelExportService.java:276) [easypoi-base-4.4.0.jar:na] at cn.afterturn.easypoi.excel.export.ExcelExportService.createSheetForMap(ExcelExportService.java:214) [easypoi-base-4.4.0.jar:na]
集群部署下，动态生成雪花算法WorkId和DataCenterId
会撩头发的程序猿: 应该要消除这个概率，你这种拿host取模，实例多了自然会重复，而且你也没有完全复用wordId和dataCenterId得1024种组合，最好的方法就是用redis的自增Id取模，当然了如果大项目实例超过了1024，单独部署一个服务生成分布式Id就好。
集群部署下，动态生成雪花算法WorkId和DataCenterId
技术武器库: wordId和dataCenterId会有小概率重复，例如有2个节点重复，但是重复的2个节点又在同一毫秒内，使用多线程大量去生成ID，种种概率加在一起，其实非常低
集群部署下，动态生成雪花算法WorkId和DataCenterId
会撩头发的程序猿: 你这种方式，两个Id会重复的，都是32取模，你这样都不能完全利用他们的1024种组合（32*32），有重复的几率。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

技术武器库 一句真诚的谢谢，胜过千言万语

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。