- 博客(13)
- 收藏
- 关注
原创 [PySpark学习]RDD的重要算子
1、 map和foreach算子都有对应的分区算子,分别是mapPartitions和foreachPartition2、 分区算子适用于有反复消耗资源的操作,例如:文件的打开和关闭、数据库的连接和关闭等,能够减少操作的次数。3、 如果没有反复消耗资源的操作,调用两类算子,效果一样。1、 这两个算子都是用来改变RDD的分区数。2、 repartition 既能够增大RDD分区数,也能够减小RDD分区数。但是都会导致发生Shuffle过程。
2024-01-08 10:56:07
1098
1
原创 [PySpark学习]RDD的转换(Transformation)与动作算子(Action)
RDD(英文全称Resilient Distributed Dataset),即弹性分布式数据集是spark中引入的一个数据结构,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。Resilient弹性:RDD的数据可以存储在内存或者磁盘当中,RDD的数据可以分区。Distributed分布式:RDD的数据可以分布式存储,可以进行并行计算。Dataset数据集:一个用于存放数据的集合。
2024-01-04 21:18:57
1569
2
原创 Hive SQL实现行转列跟列转行
原理:将UDTF(表生成函数)的结果构建成一个类似于视图的表,然后将原表中的每一行和UDTF函数输出的每一行进行连接,生成一张新的虚拟表。from 表名 lateral view UDTF(xxx) 侧视图名 as 字段名;以上就是hive SQL中行列转换的具体解决方案了。1、首先将单列数据先切割再使用炸裂函数炸开;2、同时配合侧视图生成最后完整表。
2023-12-15 22:17:02
781
原创 [Hive学习]缓慢渐变维与拉链表
在数仓建模中数据一般分为维度跟指标,维度就是基本不变、固定的数据,比如年、月、日、住址、手机号、区域、门店等。维度可以根据变化剧烈程度主要分为,但大多数维度数据会随时间的迁移是缓慢变化的,也称为缓慢渐变维(SCD)。缓慢渐变维,即维度中的属性可能会随着时间发生改变,比如包含用户住址Address的DimCustomer维度,用户的住址可能会发生改变,进而影响业务统计精度。
2023-12-14 20:11:17
299
1
原创 [Hive学习]聚合增强函数解析:grouping sets、cube、rollup、grouping判断
本文介绍了hive聚合增强函数:grouping sets、cube、rollup、grouping判断的使用方法及注意细节。
2023-12-13 22:04:49
1872
1
原创 [python学习](八)python数据容器:集合和字典
集合的形式为大括号 { }集合名 = set()注意:不能使用:集合名 = { },这打印出来的数据类型为字典,下面会讲到集合名 = {元素1,元素2,...}字典的形式为大括号 { key:value }字典名 = dict()字典名 = { }字典名 = {k1:v1 , k2:v2 , ...}注意:每一个元素都是一个键值对。
2023-10-06 21:43:31
237
1
原创 [python学习](七)python数据容器:元组和字符串
元组的形式为小括号 ( )有两种方法可以定义:元组名 = ( )元组名 = tuple()元组名 = (元素1,元素2,...)注意:如果只有一个元素,需要加上逗号,如:元组名 = (元素,)字符串的形式为引号 :' ' " "(1)定义空字符串空字符串:字符串名=str() 字符串名='' 或者 字符串名="" 或者 字符串名='''''' 或者 字符串名=""""""(2)定义非空字符串。
2023-10-06 21:09:45
82
1
原创 [python学习](六)python数据容器-列表
空列表: 列表名=[] 或者 列表名=list()非空列表: 列表名=[元素1,元素2,元素3,...]列表支持嵌套。
2023-10-04 11:21:42
65
1
原创 [python学习](五)函数基础
def 函数名(形式参数):"""此处可以加函数的说明文档...:param: 解释参数:return: 解释返回值"""函数体return 返回值。
2023-10-03 11:00:10
83
1
原创 [python学习](四)循环语句:while循环和for循环
1、while循环基础步骤:1.定义变量赋初始值2.条件判断3.循环体4.条件控制2、while循环基础格式:变量名 = 初始值while 条件判断:循环体条件控制3、while无限循环:无限循环: 又叫死循环,恒成立的条件,循环的内容如果不设置条件不会停下来实现无限循环的方式:方式1: 正常的while循环,不加条件控制方式2: while循环条件用两个字面量比较结果是True方式3(建议): while循环条件直接用True。
2023-10-02 12:03:09
921
1
原创 [python学习](三)input函数及if判断语句
需求: 定义两个变量,分别存储你自己的姓名和年龄,# 要求打印结果: 我的姓名是xxx,我的年龄是xx岁# 1.定义变量存储数据name = '张三'age = 20# 2.格式化输出# 方式1: print输出多个内容的方式print('我的姓名是', name, ',我的年龄是', age, '岁')# 方式2: ‘+ ‘拼接多个字符串print('我的姓名是' + name + ',我的年龄是' + str(age) + '岁')
2023-10-01 11:24:35
692
1
原创 [python学习](二)python基础语法
可以用两种方法编写1、通过黑窗口(win+R)弹窗输入cmd —> 输入python进入python编程。
2023-09-30 12:44:32
73
1
原创 [python学习](一)学习前准备,理解大数据与计算机
在当今世界,大数据已经成为了生活中的方方面面,下面的文章介绍大数据的相关知识及计算机的组成部分。
2023-09-29 14:44:15
101
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人