
Spark
文章平均质量分 78
大数据东哥(Aidon)
这个作者很懒,什么都没留下…
展开
-
SparkSQL运行架构及原理
本文覆盖SparkSQL运行架构原理、Catalyst优化器简介、SparkSQL运行架构、SparkSQL解析Core的底层原理、SparkSQL执行计划查看等.原创 2024-12-19 14:09:15 · 595 阅读 · 0 评论 -
SparkSQL案例
SparkSQL案例,Python版本的SparkSQL操作实践,包含案例描述、案例数据和案例需求分析及SQL实现,整合Hive.原创 2024-12-17 11:48:42 · 409 阅读 · 0 评论 -
SparkSQL与Hive的整合
本文包含Spark On Hive、Hive On Spark、SparkSQL命令行、SparkSQL分布式查询的介绍和实践操作.原创 2024-12-11 13:46:45 · 1309 阅读 · 0 评论 -
SparkSQL的自定义函数
SparkSQL的自定义函数实现,主要是UDF自定义函数实现和案例.原创 2024-12-10 13:08:55 · 301 阅读 · 0 评论 -
SparkSQL编程实践
本文涵盖SparkSQL编程模型介绍、SparkSQL编程、Python的第三方库安装、SparkSQL程序结构、SparkSQL执行模式、SparkSQL数据加载、DSL数据处理风格和SparkSQL数据落地等内容.原创 2024-12-09 14:36:05 · 948 阅读 · 0 评论 -
SparkSQL概述
SparkSQL,就是Spark生态体系中的构建在SparkCore基础之上的一个基于SQL的计算模块。SparkSQL的前身不叫SparkSQL,而是叫做Shark。最开始的时候底层代码优化、SQL的解析、执行引擎等等完全基于Hive,总是Shark的执行速度要比Hive高出一个数量级,但是Hive的发展制约了Shark。因此在15年中旬的时候,Shark的负责人将Shark项目结束掉,重新独立出来的一个项目,就是SparkSQL。本文涵盖SparkSQL介绍、发展历程、特点和总结等内容。原创 2024-05-09 16:20:45 · 431 阅读 · 0 评论 -
Python版Spark core详解
Apache Spark 是一种快速、通用、可扩展的大数据分析引擎。项目使用Scala语言进行编写,并提供了包括Scala、Python、Java在内的多种语言的编程接口。本文内容翔实,包括Spark环境部署、Spark介绍、Spark集群安装部署、Spark作业提交、SparkCore编程、RDD介绍、RDD创建、RDD基本操作、RDD案例、SparkCore高级编程、RDD依赖、RDD任务划分、RDD持久化机制、累加器、广播变量和Shuffle原理等。原创 2024-05-09 16:14:50 · 721 阅读 · 0 评论 -
Spark java.io.NotSerializableException
Spark core将数据写入MySQL,出现Caused by: java.io.NotSerializableException: com.mysql.cj.jdbc.DatabaseMetaData异常,解决数据反序列化问题,本文将使用两种方案解决其具体问题。原创 2024-04-24 14:50:48 · 769 阅读 · 3 评论 -
Spark SQL的生命旅程之底层解析
Spark SQL语句是如何被解析的?Spark SQL是如何转换为代码被机器执行的?Spark SQL从逻辑计划到物理计划的转换经历了怎样的优化?Antlr4强大语法解析生成器做什么?原创 2023-01-31 09:29:54 · 421 阅读 · 0 评论 -
Spark 数据倾斜调优10策
Spark 数据倾斜调优。何谓数据倾斜?数据倾斜指的是并行处理的数据集中,某一部分(如Spark或Kafka的一个Partition)的数据显著多于其它部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈。原创 2022-12-05 19:00:56 · 651 阅读 · 0 评论 -
Spark Catalyst 查询优化器原理
Catalyst本质就是一个SQL查询的优化器,而且和大多数当前的大数据SQL处理引擎设计基本相同(Impala、Presto、Hive(Calcite)等)。了解Catalyst的SQL优化流程,也就基本了解了所有其他SQL处理引擎的工作原理。原创 2022-12-01 21:20:24 · 465 阅读 · 0 评论