shuijing_dong-优快云博客

原创 SparkSQL的基本认识

SparkSQL的数据抽象为：SchemaRDD（废弃）、DataFrame（Python，R，Java，Scala）、DataSet（Java，Scala）Hive是基于磁盘迭代的，底层是基于MapReduce。DataFrame同样是分布式数据集，有分区可以并行计算，和RDD不同的是，DataFrame中存储的是数据结构是以表格形式组织的，方便进行SQL计算。Hive和Spark均是分布式SQL计算引擎，均是构建大规模结构化数据计算的绝佳利器，同时SparkSQL拥有更好的性能。

2025-03-22 01:54:36 241

原创 spark的层级关系处理

7.每一个内存迭代管道形成一个task（DAG调度器划分将Job内划分出具体的task任务，一个Job被划分出来的task在逻辑上称之为这个Job的teskset）4.每一个Job由一个Action（行动算子）产生，并且每个Job有自己的DAG执行图。5.一个Job的DAG图会基于宽窄依赖划分成不同的阶段（stage）1.一个spark环境可以运行多个Application。2.一个代码运行起来，会成为一个Application。DAG调度器：构建Task分配用以做任务管理的一个工具。

2025-03-21 22:49:50 220

原创 Spark中的DAG

Job是DAG中的一个个子任务，Action是返回值不是rdd的算子（行动算子），当一个Action开启时，其之前的所有rdd依赖链条就会开始执行，进而产生一个DAG，所以Action也可以说是一个触发开关，一个Action会产生一个DAG图。1个Application中可以有多个Job，每一个Job中包含一个DAG，同时每一个Job都是一个Action产生的。1个Action会产生一个DAG，且会在程序的运行过程中产生一个Job，而一个Action会产生一个Job（一个应用程序内的子任务）

2025-03-20 21:22:34 413

原创 PySpark中的累加问题

这样问题就来了，rdd2这个中间变量被销毁了，过后想要再使用这个rdd2，driver会沿着rdd2的血缘关系去溯源rdd2，那么就会先获取rdd1，再得来rdd2，此时累加过程会重复。故而在rdd失效的时候，如果重新构建rdd，需要注意其累加结果。对于这个问题，spark提供了一个累加器供我们使用，以满足我们累加的需求，其原理类似于driver发送给分区线程的是count的内存指针而非只是一个形式参数，此时只要分区线程对count进行处理，其结果就会同步到driver中，这样就可以实现分布式的累加。

2025-03-19 19:07:13 1492

原创有关MySQL8.0.30初次登录后用户密码策略无法修改的问题

mysql查看密码指令和服务开启状态查询

2025-03-12 17:27:19 941

原创 spark的RDD

但其实也无所谓，我们缓存的仅仅只是一个过程RDD的数据，如果丢失了再从头开始计算就好了，所以缓存机制还有一个特点是，他会保留RDD之间的血缘（依赖）关系，一旦缓存丢失，就可以基于血缘关系的记录重新计算这个RDD的数据。RDD之间进行互相迭代计算（Transformation的转换），当执行开启后，新RDD的生成，代表老RDD的消失，RDD的数据只是过程数据，只在处理的过程中存在，一旦处理完成，就不见了。转换算子和行动算子的区别是：转换算子返回的是RDD数据集，而行动算子返回的不是RDD数据集。

2025-03-11 19:32:47 1126

shuijing_dong的博客

原创 SparkSQL的基本认识

原创 spark的层级关系处理

原创 Spark中的DAG

原创 PySpark中的累加问题

原创有关MySQL8.0.30初次登录后用户密码策略无法修改的问题

原创 spark的RDD

空空如也

空空如也

原创 SparkSQL的基本认识

原创 spark的层级关系处理

原创 Spark中的DAG

原创 PySpark中的累加问题

原创 有关MySQL8.0.30初次登录后用户密码策略无法修改的问题

原创 spark的RDD

空空如也

空空如也

原创有关MySQL8.0.30初次登录后用户密码策略无法修改的问题