- 博客(22)
- 收藏
- 关注
原创 Spark SQL基础
分析函数 over(partition by xxx order by xxx [asc|desc] [rows between xxx and xxx])分析函数大致可以分为以下三类:1- 聚合函数:sum() count() avg() max() min()自定义函数流程:第一步:在PySpark中创建一个Python的函数,在这个函数中书写自定义的功能逻辑代码即可第二步:将Python函数注册到Spark SQL中。
2024-01-10 20:19:39
1339
原创 Spark SQL基础知识
去重API:dropDuplicates总结:用来删除重复数据,如果没有指定参数subset,那么要比对行中的所有字段内容,如果全部相同,就认为是重复数据,会被删除;如果有指定参数subset,那么只比对subset中指定的字段范围,如果指定不存在的字段会报错.删除缺失值的API:dropna总结:1- 如果不传递任何参数,只要有任意一个字段值为null,那么就删除整行数据2-如果只指定了subset,那么空值的检查,就只会限定在subset指定的范围内。
2024-01-09 20:12:22
1570
原创 Saprk SQL基础知识
DataFrame表示的是一个二维的表,二维表,必然存在行,列等表结构描述信息.表结构描述信息(元数据Schema) :StructType对象字段:StructField对象,可以描述字段名称,字段数据类型,是否可以为空行:Row对象列:Column对象,包含字段名称和字段值在一个StructType对象下,由多个StructField组成,构建成一个完整的元数据信息。
2024-01-07 20:53:33
1288
1
原创 Spark Core进阶知识
Spark内核调度的任务:如何构建DAG执行流程图如何划分Stage截断Driver底层是如何运转确定需要构建多少分区(线程)Spark内核调度的目的:尽可能用最少的资源高效地完成任务计算。
2024-01-06 20:59:45
1205
1
原创 Spark Core基础知识
RDD:英文全称Resilient Distributed Dataset,叫做弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变,可分区,里面的元素可并行计算的集合.Resilient弹性:RDD的数据可以存储在内存或者磁盘当中,RDD的数据可以分区Distributed分布式:RDD的数据可以分布式存储,可以进行并行计算Dataset数据集:一个用于存放数据的集合。
2024-01-04 21:17:21
1400
1
原创 pandas应用和学习
1.Python在数据处理上有代码灵活,开发快速的特点.尤其是Python的Pandas包,无论是在数据分析领域还是在大数据开发场景都具有显著优势:①Pandas是Python的一个第三方包,也是商业和工程领域最流行的结构化数据工具集,用于数据清洗,处理以及分析.②Pandas和Spark中很多功能都类似,甚至使用方法都相同.建议两者可以一起学习.③Pandas在数据开发的流程中的应用场景。
2023-12-30 21:33:52
1098
1
原创 PyMySQL模块介绍及使用
PyMySQL是Python中用来操作MySQL数据库的一个第三方模块.作用:在程序中利用SQL操作MySQL数据库,进行数据库的增,删,改,查操作.
2023-12-30 20:48:59
461
1
原创 python进阶之多进程多线程
1)进程是操作系统进行资源分配的基本单位2)进程可以有一个或多个子进程3)最原始的父进程是操作系统提供的1)线程是CPU进行调度的基本单位2)线程可以有一个或多个子线程3)线程是进程主动创建出来的,创建第一个子线程的时候才会出现主线程1-多进程:计算机分配资源的最小单位2-多线程:CPU进行调度的最小单位3-线程不能独立存在,必须依存于进程中4-多进程中,多个子进程和主进程之间,不会共享全局变量5-多线程中,多个子线程和主线程之间,会共享全局变量。
2023-12-29 12:22:31
1013
1
原创 python进阶之闭包装饰器
闭包装饰器:对旧功能/代码,在最小源代码改造情况下进行功能升级.装饰器也叫[语法糖]比如:例如我们需要对数据库的操作,额外增加事务的处理.就可以用到装饰器来解决.例子:# 定义装饰器,用来对旧代码升级/加强print("代码加强【开启事务】")# 调用原始函数print("代码加强【关闭事务】")print("对数据库的增删改查操作")crud()注意: 使用装饰器,我们对原始的crud()方法内部没有做任何的改变。
2023-12-29 11:29:07
889
1
原创 python面向对象的总结
1- 类的命名:大驼峰命名法,所有单词首字母都大写2-所有类的顶级父类,默认是object,可写可不写1-常用__init__,__str__,__del__2-命名前后都需要有下划线3-__init__:对类的实例对象进行初始化操作,或者对一些公共资源进行初始化,例如:文件打开,数据库的连接.4-__str__:一般用来对类的实例对象进行格式化输出,返回值类型必须是string.打印对象,默认打印的是内存地址值.
2023-12-25 18:09:46
414
1
原创 python基础
包->含有__init__.py文件的文件夹模块->py文件类->class[面向对象学习]函数(方法)->def以上均不能以数字开头,也不能和python内置的一切重名。
2023-12-24 20:01:35
374
原创 python容器数据类型
定义:元组变量名=(数据1,数据2,...)访问:元组变量名[位置标号]注意:如果定义的元组只有一个数据,那么这个数据后面一定要添加逗号,否则数据类型为唯一的这个数据的数据类型.特点:符号为大括号,数据以键值对形式出现,各个键值对之间用逗号隔开注意事项:一般称冒号前面的为键(key),简称k;冒号后面的为值(value),简称v;key:value就是我们通常说的键值对了。2.字典的常用操作1).字典[键]=值:键不存在,会添加键值对;键存在,会修改键对的值。
2023-12-21 21:36:39
878
原创 kettle从excel到mysql中文乱码解决办法
2.在mycnf文件中加入以下代码,注意:[mysqld]原文件有不用重复添加,也可以打开自己的文件相关路径\phpstudy_pro\Extensions\MySQL5.7.26/my.ini查看mysql代码插入。4.查看mysql编码格式:show VARIABLES like '%character%';1.利用Notepad++打开linux文件/etc/mycnf。excel用kettle导入到mysql中文乱码解决办法。注意建库也要设置编码。
2023-12-13 21:47:00
765
1
原创 4个聚合增强函数介绍
1.1.就是通过指定的多个维度进行查询的. 即: 你写了哪些维度, 它就按照哪些维度进行聚合计算.1.2.细节: 维度要用括起来, 如果是1个维度, 小括号可以省略, 但是建议写上.1.3.grouping sets函数在hive中 和 presto中的写法略有不同。
2023-12-13 21:45:53
990
1
原创 hive调优相关操作
hive参数设置范围:配置文件参数>命令行参数>set参数声明hive参数设置优先级:set参数声明>命令行参数>配置文件参数注意:一般执行SQL需要指定的参数,都通过set参数声明,因为它属于临时设置,断开就失效了。
2023-11-17 21:32:21
77
1
原创 hive函数有关总结
from_unixtime: 把unix时间戳转换为日期格式的时间 注意: 如果传入的参数是0,获取的是时间原点1970-01-01 00:00:00。聚合开窗函数: 原来学的聚合函数(max,min,sum,count,avg)配合over()使用的时候,这些聚合函数也可以叫开窗函数。if(参数1,参数2,参数3): 如果参数1结果为true,就执行参数2内容,否则执行参数3的内容。nvl(数据,参数2): 如果数据不为空打印数据,为空null打印第二个参数 常用。
2023-11-15 22:09:02
99
原创 分区表和分桶表以及各种复杂数据类型自我总结
多级分区:create table 表名(字段名 字段类型...) partitioned by (分区字段1 字段类型1,分区字段2 字段类型2) row format delimited fields terminated by '分隔符';一级分区:create table 表名(字段名 字段类型...) partitioned by (分区字段 字段类型) row format delimited fields terminated by '分隔符';--本质上是建造一个目录。
2023-11-12 20:44:36
75
1
原创 内外部表操作,hive数据导出和导入的操作梳理
-bin/hive -f export.sql > /home/hadoop/export4/export4.txt --脚本输出。--从hdfs一个表导入到另一个表,原数据会消失,同时覆盖新表中数据。
2023-11-11 20:53:39
157
1
原创 linuxday01
tcp:传输控制协议(Transmission Control Protocol)是一种面向连接的,可靠的,基于字节流的传输层通信协议。udp:用户数据报协议(User Datagram Protocol)是一种无连接的,不可靠的,之间发送封装的IP数据包的通信协议。Secure Shell:(安全外壳协议,简称SSH)是一种加密的网络传输协议,可在不安全的网络中为网络服务提供安全的传输环境。端口:应用程序的入口,但是往往要先试用端口号来找到对应的端口,再根据端口连接上对应的进程。
2023-11-04 22:23:05
48
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人