SparkSQL系列-5、什么是Dataset？

最新推荐文章于 2025-04-27 18:58:50 发布

技术武器库

最新推荐文章于 2025-04-27 18:58:50 发布

阅读量572

点赞数

分类专栏：大数据专栏文章标签：大数据 spark java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/l848168/article/details/126343389

版权

大数据专栏专栏收录该内容

83 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

传送门：大数据系列文章目录

官方网址：http://spark.apache.org/、 http://spark.apache.org/sql/
在这里插入图片描述

目录

Dataset 是什么
对比DataFrame
RDD、 DF与DS转换
面试题：如何理解RDD、 DataFrame和Dataset
下回分解

Dataset 是什么

Dataset是在Spark1.6中添加的新的接口，是DataFrame API的一个扩展，是Spark最新的数据
抽象，结合了RDD和DataFrame的优点。

与RDD相比：保存了更多的描述信息，概念上等同于关系型数据库中的二维表；

了解本专栏

超级会员免费看

技术武器库

博客等级

码龄8年

Java领域优质创作者

博客专家认证

230
原创

482
点赞

1178
收藏

2万+
粉丝

关注

私信

热门文章

分类专栏

大数据专栏付费 83篇
feign 1篇
网盘 2篇
服务器 1篇
xmind 1篇
Excel 1篇
Dubbo 1篇
JAVA-GUI专栏 2篇
Spring系列 1篇
ChatGPT
ShardingSphere 5篇
吐血整理 55篇
JAVA多线程与并发 18篇
Redis 6篇
SpringCloud 7篇
SpringBoot 11篇
Linux 16篇
Docker 3篇
Mybatis 8篇
Mysql 7篇
IDEA
JVM 5篇
Netty 1篇
ËlasticaSearch 1篇
Jmeter 2篇
Jenkins 3篇
Java基础 3篇
Windows 4篇

展开全部收起

上一篇：: SparkSQL系列-4、数据处理分析

下一篇：: SparkSQL系列-6、外部数据源 DataSource？

最新评论

EasyPoi表头如何合并导出？
技术武器库: map 不能转换为 collection ，它们是2个类型
EasyPoi表头如何合并导出？
douxnxa: 一直在报这个错： java.lang.ClassCastException: java.util.HashMap cannot be cast to java.util.Collection at cn.afterturn.easypoi.excel.export.base.ExportCommonService.getListCellValue(ExportCommonService.java:263) ~[easypoi-base-4.4.0.jar:na] at cn.afterturn.easypoi.excel.export.base.BaseExportService.createCells(BaseExportService.java:83) ~[easypoi-base-4.4.0.jar:na] at cn.afterturn.easypoi.excel.export.ExcelExportService.insertDataToSheet(ExcelExportService.java:276) [easypoi-base-4.4.0.jar:na] at cn.afterturn.easypoi.excel.export.ExcelExportService.createSheetForMap(ExcelExportService.java:214) [easypoi-base-4.4.0.jar:na]
集群部署下，动态生成雪花算法WorkId和DataCenterId
会撩头发的程序猿: 应该要消除这个概率，你这种拿host取模，实例多了自然会重复，而且你也没有完全复用wordId和dataCenterId得1024种组合，最好的方法就是用redis的自增Id取模，当然了如果大项目实例超过了1024，单独部署一个服务生成分布式Id就好。
集群部署下，动态生成雪花算法WorkId和DataCenterId
技术武器库: wordId和dataCenterId会有小概率重复，例如有2个节点重复，但是重复的2个节点又在同一毫秒内，使用多线程大量去生成ID，种种概率加在一起，其实非常低
集群部署下，动态生成雪花算法WorkId和DataCenterId
会撩头发的程序猿: 你这种方式，两个Id会重复的，都是32取模，你这样都不能完全利用他们的1024种组合（32*32），有重复的几率。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

技术武器库 一句真诚的谢谢，胜过千言万语

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。