大数据学习之SparkSql

李匠2024

已于 2025-02-10 11:03:04 修改

阅读量1.4k

点赞数 30

文章标签：大数据学习

于 2025-02-08 18:45:50 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_27302885/article/details/145513943

版权

95.SPARKSQL_简介

网址： https://spark.apache.org/sql/

Spark SQL 是 Spark 的一个模块，用于处理 结构化的数据 。

SparkSQL 特点

1

易整合

无缝的整合了 SQL 查询和 Spark 编程，随时用 SQL 或

DataFrame API 处理结构化数据。并且支持多语言 Java 、

Scala 、 Python 、 R 。

2

统一的数据访问

使用相同的方式连接不同的数据源或不同的文件格式中的数

据。

3

兼容 Hive

在已有的数据仓库上直接运行 SQL 或者 HiveQL ，也可以使

用 SparkSQL 直接处理数据并生成 Hive 数据表。

1 4

标准的数据连接

支持标准化的 JDBC\ODBC 连接 , 方便和各种数据进行数据交换

实时效果反馈

1. 关于 SparkSQL 特点的描述，错误的是：

A

易整合：无缝的整合了 SQL 查询和 Spark 编程，随时用

SQL 或 DataFrame API 处理结构化数据。并且支持多语言 Java 、

Scala 、 Python 、 R 。

B

统一的数据访问：使用相同的方式连接不同的数据源或不同

的文件格式中的数据。

C

不兼容 Hive 。

D

支持标准化的 JDBC\ODBC 连接 , 方便和各种数据进行数据交

换。

答案：

1=>C 兼容 Hive

96.SPARKSQL_发展史

Hive 是早期唯一运行在 Hadoop 上的 SQL-on-Hadoop 工具。但

是 MapReduce 计算过程中大量的中间磁盘落地过程消耗了大量的

I/O ，降低的运行效率，为了提高 SQL-on-Hadoop 的效率，大量的

SQL-on-Hadoop 工具开始产生，其中表现较为突出的是： Impala 、

Shark 、 Drill 。

其中 Shark 是伯克利实验室 Spark 生态环境的组件之一，是基于

Hive 所开发的工具。 Shark 对于 Hive 的太多依赖，制约了 Spark 各个

组件的相互集成，所以提出了 SparkSQL 项目。

SparkSQL 抛弃原有 Shark 的代码，汲取了 Shark 的一些优点，

如内存列存储（ In-Memory Columnar Storage ）、 Hive 兼容性

等，重新开发了 SparkSQL 代码；由于摆脱了对 Hive 的依赖性，

SparkSQL 无论在数据兼容、性能优化、组件扩展方面都得到了极大

的方便。

相关时间节点

1

2014 年 1.0 正式发布， Shark 项目和 SparkSQL 项目的主持人

Reynold Xin 宣布：停止对 Shark 的开发，团队将所有资源放

SparkSQL 项目上，至此， Shark 的发展画上了句话，但也因

此发展出两个支线： SparkSQL 和 Hive on Spark 。

3 2

2015 年 1.3 发布 DataFrame 数据结构 , 沿用至今

3

2016 年 1.6 发布 Dataset 数据结构 ( 带泛型的 DataFrame), 适

用于支持泛型的语言 Java 、 Scala

4

2016 年 2.0 统一了 Dataset 和 DataFrame, 以后只有 Dataset

了 , Python 用的 DataFrame 就是没有泛型的 Dataset 。

5

2019 年 3.0 发布，性能大幅度提升， SparkSQL 变化不大。

6

2021 年 3.2 发布，支持 Java 、 Python 、 Scala 、 R

总结：

SparkSQL 用于处理大规模结构化数据的计算引擎

1

SparkSQL 在企业中广泛使用，并性能极好。

2

SparkSQL ：使用简单、 API 统一、兼容 HIVE 、支持标准化 JDBC 和 ODBC 连接

3

SparkSQL 2014 年正式发布，当下使用最多的 2.3

最低0.47元/天解锁文章

博客等级

码龄10年

232
原创

4571
点赞

3220
收藏

1820
粉丝

关注

私信

热门文章

上一篇：: 云计算学习之Tomcat应用部署、ECS业务部署、RDS-NAS

下一篇：: 云计算学习之OSS-CDN产品部署、弹性伸缩-NAT、Ansible-Ad-hoc

最新评论

C++负载均衡远程调用学习之订阅功能与发布功能
优快云-Ada助手: 恭喜你这篇博客进入【优快云每天值得看】榜单，全部的排名请看 https://bbs.youkuaiyun.com/topics/619702693。
大数据学习之Kafka消息队列、Spark分布式计算框架一
李匠2024: 在Kafka生产者发送数据时，确保数据顺序性是一个关键问题。以下是确保数据顺序性的方法以及可能导致顺序性丢失的原因分析：确保数据顺序性的方法 1. 单分区写入 - Kafka通过分区实现并行处理，但单个分区内的消息是有序的。因此，将相关消息发送到同一分区可以保证它们的顺序。 - 通过自定义分区策略，将特定键的消息始终路由到同一分区。 2. 设置`max.in.flight.requests.per.connection=1`**： - 该配置限制生产者在收到服务器确认前只能有一个未完成的请求，防止消息因重试而乱序。 3. 启用幂等性 - 设置`enable.idempotence=true`，确保即使重试也不会产生重复消息，避免因重试导致的乱序。 4. 使用同步发送 - 使用`send().get()`确保每条消息发送成功后再发送下一条，但会降低吞吐量。 5. 顺序确认机制 - 在应用层实现确认机制，确保上一条消息成功后再发送下一条。可能导致顺序性丢失的原因 1. 重试机制 - 默认情况下，Kafka生产者会重试失败的请求，可能导致消息乱序。 2. 多个未完成请求 - 如果允许多个未完成请求，消息可能因网络延迟或重试而乱序。 3. 分区策略不当 - 如果消息被路由到不同分区，不同分区的消息顺序无法保证。 4. 消费者并行处理 - 消费者并行处理多个分区的消息时，可能导致处理顺序与发送顺序不一致。 5. 生产者缓冲区 - 生产者缓冲区的消息可能因网络问题或服务器延迟而乱序发送。 6. Kafka集群问题 - 分区Leader切换或副本同步问题可能导致消息顺序不一致。总之确保Kafka消息顺序性的关键在于控制消息发送到同一分区、限制未完成请求数量、启用幂等性等。同时，需注意重试机制、分区策略、消费者并行处理等因素可能导致的顺序性丢失。
大数据学习之Kafka消息队列、Spark分布式计算框架一
优快云-Ada助手: 恭喜你这篇博客进入【优快云每天值得看】榜单，全部的排名请看 https://bbs.youkuaiyun.com/topics/619553544。

大家在看

iOS审核 4.3a - Design - Spam 终于解决了!!!

最新文章

2025

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。