自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 SparkSQL的基本认识

SparkSQL的数据抽象为:SchemaRDD(废弃)、DataFrame(Python,R,Java,Scala)、DataSet(Java,Scala)Hive是基于磁盘迭代的,底层是基于MapReduce。DataFrame同样是分布式数据集,有分区可以并行计算,和RDD不同的是,DataFrame中存储的是数据结构是以表格形式组织的,方便进行SQL计算。Hive和Spark均是分布式SQL计算引擎,均是构建大规模结构化数据计算的绝佳利器,同时SparkSQL拥有更好的性能。

2025-03-22 01:54:36 241

原创 spark的层级关系处理

7.每一个内存迭代管道形成一个task(DAG调度器划分将Job内划分出具体的task任务,一个Job被划分出来的task在逻辑上称之为这个Job的teskset)4.每一个Job由一个Action(行动算子)产生,并且每个Job有自己的DAG执行图。5.一个Job的DAG图会基于宽窄依赖划分成不同的阶段(stage)1.一个spark环境可以运行多个Application。2.一个代码运行起来,会成为一个Application。DAG调度器:构建Task分配用以做任务管理的一个工具。

2025-03-21 22:49:50 220

原创 Spark中的DAG

Job是DAG中的一个个子任务,Action是返回值不是rdd的算子(行动算子),当一个Action开启时,其之前的所有rdd依赖链条就会开始执行,进而产生一个DAG,所以Action也可以说是一个触发开关,一个Action会产生一个DAG图。1个Application中可以有多个Job,每一个Job中包含一个DAG,同时每一个Job都是一个Action产生的。1个Action会产生一个DAG,且会在程序的运行过程中产生一个Job,而一个Action会产生一个Job(一个应用程序内的子任务)

2025-03-20 21:22:34 413

原创 PySpark中的累加问题

这样问题就来了,rdd2这个中间变量被销毁了,过后想要再使用这个rdd2,driver会沿着rdd2的血缘关系去溯源rdd2,那么就会先获取rdd1,再得来rdd2,此时累加过程会重复。故而在rdd失效的时候,如果重新构建rdd,需要注意其累加结果。对于这个问题,spark提供了一个累加器供我们使用,以满足我们累加的需求,其原理类似于driver发送给分区线程的是count的内存指针而非只是一个形式参数,此时只要分区线程对count进行处理,其结果就会同步到driver中,这样就可以实现分布式的累加。

2025-03-19 19:07:13 1492

原创 有关MySQL8.0.30初次登录后用户密码策略无法修改的问题

mysql查看密码指令和服务开启状态查询

2025-03-12 17:27:19 941

原创 spark的RDD

但其实也无所谓,我们缓存的仅仅只是一个过程RDD的数据,如果丢失了再从头开始计算就好了,所以缓存机制还有一个特点是,他会保留RDD之间的血缘(依赖)关系,一旦缓存丢失,就可以基于血缘关系的记录重新计算这个RDD的数据。RDD之间进行互相迭代计算(Transformation的转换),当执行开启后,新RDD的生成,代表老RDD的消失,RDD的数据只是过程数据,只在处理的过程中存在,一旦处理完成,就不见了。转换算子和行动算子的区别是:转换算子返回的是RDD数据集,而行动算子返回的不是RDD数据集。

2025-03-11 19:32:47 1126

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除