SparkSQL权威指南
文章平均质量分 93
现阶段SQL已经成为大数据领域使用场景最多的语言,而SparkSQL更是最常用的大数据计算的SQL引擎,HiveSQL已经逐渐被SparkSQL全面替代,这个专栏就是基于这样的背景应用而生。(该专栏讲的是纯SQL,不包含Dataset)
SunnyRivers
在通信、游戏、互联网、新能源等不同行业从事过多年大数据开发相关工作,想通过博客和大家一起分享大数据技术带来的经验和乐趣。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Dataset关联性能优化
如果一大一小两个Dataset进行join,每个woker的内存足够存放小的Dataset,此时最好的处理方式就是将小的Dataset进行广播,有关广播的知识可以参考这篇文章。原创 2023-03-31 23:45:01 · 438 阅读 · 0 评论 -
SparkSQL性能优化终极篇
随着Spark版本的不断迭代,SparkSQL底层使用了各种优化技术,无论方便性、性能都已经超越了RDD。因此SparkSQL已经是最常用的Spark开发方式,因此,这里把常用的SparkSQL性能优化技术进行汇总。原创 2023-06-12 13:46:10 · 2423 阅读 · 2 评论 -
SparkSql Join Types详解
我们都知道join是根据某些条件把两行数据关联起来,而且也熟悉常用的一些join type,如inner、left、right等等,但是有些人可能对semi、anti或者一些语法的缩写和全写搞的不是很清楚,这篇博客就用简单明了的案例把这些都讲明白。原创 2024-01-31 11:26:39 · 589 阅读 · 0 评论 -
spark sql官网优化指南
例如,当在表“t1”上使用BROADCAST提示时,即使表“t1”的统计大小超过了配置spark.sql.autoBroadcastJoinThreshold所建议的大小,Spark也会优先考虑使用“t1”作为构建侧的广播联接(取决于是否存在等联接键,可能是广播哈希联接或广播嵌套循环联接)。当联接的两边都指定了不同的联接策略提示时,Spark会优先考虑BROADCAST提示,其次是MERGE提示,然后是SHUFFLE_HASH提示,最后是SHUFFLE_REPLICATE_NL提示。原创 2024-02-18 11:09:16 · 1129 阅读 · 0 评论 -
SparkSQL FUNCTION相关操作
这篇博客中的FUNCTION只针对SQL接口(也就是用的是Hivesql接口中的自定义函数),不包括使用scala、java、python用spark代码中开发的函数。这样的函数我们可以直接在Sparksql cli模式或者写在sql脚本中直接用sparksql命令可以执行的函数。原创 2024-09-09 15:18:34 · 690 阅读 · 0 评论 -
SparkSQL SET和RESET
我们在用代码写spark程序的时候,如果要设置一些配置参数,可以通过:SparkConf如果我们在sparksql cli或者sparksql执行一些sql脚本的时候,我们要设置一些参数或取消参数就得用sparksql的set和unset命令。原创 2024-09-09 11:12:09 · 545 阅读 · 0 评论 -
SparkSQL四种排序详解
和Hive一样,SparkSQL也有同样的四种排序:Sort By、Order By、Distribute By和Cluster By。本篇博客用最详细的案例对这四种排序进行详解,希望能够让读者在SparkSQL中使用排序的时候可以游刃有余。order by 是全局排序,可能性能会比较差;sort by分区内有序,往往配合distribute by来确定该分区都有那些数据;distribute by 确定了数据分发的规则,相同的分区字段对应的值会放在同一个分区内。原创 2024-09-05 13:13:58 · 996 阅读 · 0 评论 -
Spark SQL Hints:优化查询性能的利器
在大数据处理领域,Apache Spark 是一个非常流行的框架,它提供了高性能的数据处理能力。Spark SQL 是 Spark 中的一个模块,用于处理结构化和半结构化数据,允许用户使用 SQL 查询数据,同时也提供了 DataFrame 和 DataSet API 进行编程访问。为了帮助开发者更有效地优化查询性能,Spark SQL 引入了查询提示(Hints),这是一种在 SQL 查询中嵌入优化指令的方法。原创 2024-08-27 14:23:44 · 1563 阅读 · 0 评论 -
SparkSQL缓存的用法
CACHE TABLE(缓存表)UNCACHE TABLE(清除指定缓存表)CLEAR CACHE(清除所有缓存表)下面我们详细讲解这些语句的使用方法。原创 2024-08-27 13:54:07 · 1544 阅读 · 0 评论 -
SparkSQL DML语句详解
数据操作语句用于添加、更改或删除数据。LOAD。原创 2024-08-27 13:10:33 · 2111 阅读 · 0 评论 -
SparkSQL DDL语句之CREATE TABLE
CREATE TABLE语句是用来给一个已存在的数据库中创建表的。我们平时用Hive等其他组件建表居多,本篇博客主要讲解一下SparkSQL如何进行建表。原创 2024-08-27 10:21:06 · 1145 阅读 · 0 评论 -
SparkSQL数值模式详解
函数如 to_number 和 to_char 确实支持在字符串类型和十进制(数值)类型之间进行转换。这些函数接受格式字符串作为参数,这些格式字符串指示了如何在这两种类型之间映射。to_number:这个函数通常用于将字符串转换成数值类型。你需要提供一个格式字符串来指定如何解释字符串中的字符,以便正确地转换为数值。格式字符串定义了诸如小数点的位置、千位分隔符的存在与否等细节。to_char:相反,这个函数用于将数值类型的数据转换成字符串形式。同样地,它也接受一个格式字符串来定义数值应该以何种格式输出。原创 2024-08-26 12:49:39 · 825 阅读 · 0 评论 -
SparkSQL日期时间模式详解
SparkSQL中的日期时间模式,可能大部分人只了解其中的某部分内容,我们尽可能的把所有的日期模式进行一个全面的了解,这样在使用的时候就能游刃有余。原创 2024-08-26 10:22:43 · 640 阅读 · 0 评论 -
SparkSQL数据类型
在处理与标准浮点语义不完全匹配的浮点或双精度类型时,对非数字(NaN)有特殊的处理。对正无穷大和负无穷大有特殊的处理。原创 2024-08-19 14:19:56 · 535 阅读 · 0 评论 -
SparkSQL遵循ANSI标准
ANSI Compliance通常指的是遵循美国国家标准学会(American National Standards Institute, ANSI)制定的标准。在计算机科学和技术领域,这通常涉及到数据库管理系统(DBMS)对于SQL语言的支持程度。ANSI为SQL(Structured Query Language)制定了多个标准,这些标准定义了如何以一致的方式编写SQL查询和程序。这些标准旨在提高不同数据库系统之间的兼容性,使得基于标准的SQL代码可以在多种不同的数据库平台上运行。原创 2024-08-19 13:31:36 · 653 阅读 · 0 评论
分享