- 博客(39)
- 收藏
- 关注
原创 Spark SQL函数定义
SQL函数分类可以分为UDF,UDAF,UDTF,本文介绍了spark原生自定义UDF函数,Pandas的UDF函数,基于Arrow完成Pandas DataFrame和Spark DataFrame互转,基于Pandas完成自定义UDF函数,UDAF函数
2024-01-17 09:34:35
1395
1
原创 结构化流的介绍
数据可以分为有界数据和无界数据,结构化流的数据结构是无界的,介绍了结构化流的编程模型,数据结构,数据源,重点介绍可Spark和Kafka的整合
2024-01-15 16:10:30
1331
原创 Kafka的核心原理
Kafka的核心原理:Topic的分区和副本机制,消息存储机制和查询机制,kafka中生产者数据分发策略,数据不丢失机制,关于kafka的数据积压问题
2024-01-14 19:25:00
2000
原创 Spark的内核调度
本文介绍了Spark的内核调度中的RDD的依赖,DAG有向无环图的形成和Stage的划分,以及Stage内部流程,还有Spark Shuffle的发展历程Hash Shuffle和Sort Shuffle,还包含了Job的调度流程,以及Spark RDD的并行度
2024-01-12 21:14:51
1336
2
原创 Kafka的简介及架构
消息队列是指数据在一个容器中,从容器中一端传递到另一端过程;Kafka是一款消息队列中间件产品,来源于领英公司,后期贡献给了Apache,目前是Apache旗下的顶级开源项目,采用语言是Scala;本文介绍了Kafka的的基本架构,以及Kafka使用中的常用shell命令,以及Kafka的Python API的操作
2024-01-11 22:32:09
2603
3
原创 DataFrame详解
DataFrame详解:清洗相关的API有去重API: dropDupilcates,删除缺失值API: dropna,替换缺失值API: fillna;Spark SQL的Shuffle分区设置,直接修改spark的配置文件,在客户端通过指令submit命令提交的时候动态设置shuffle的分区数量,在代码中设置;将数据写出主要有两种操作,将数据写出本地文件,将数据写出到数据库
2024-01-09 21:52:33
1280
原创 DataFrame相关的API
操作DataFrame一般有两种操作方案:一种为DSL方式,一种为SQL方式.SQL方式:通过编写SQL语句完成统计分析操作,DSL操作:特定领域语言,使用DataFrame特有的API完成计算,也就是代码形式,本文还总结了DSL相关的API,对Spark SQL的综合应用作了基础的演示,包含了SQL方式,以及DSL方式
2024-01-08 16:26:27
1267
原创 PySpark-Spark SQL基本介绍
Spark SQL是Spark多种组件中其中一个,主要是用于处理大规模的结构化数据,本文阐述了Spark SQL的特点以及对比了Spark SQL和Hive SQL的异同,详细介绍了Spark SQL的数据结构DataFrame,包括DataFrame的三种构建方式,通过RDD构建DataFrame,通过内部初始化数据得到DataFrame,通过读取外部文件得到DataFrame
2024-01-07 22:27:54
2670
原创 PySpark之RDD的持久化
本文介绍了PySpark的RDD的持久化方案缓存操作和checkpoint检查点,详细介绍了缓存操作和checkpoint检查点的基础知识,详细对比了两种方案的差别,以及总结了两种方案在实际工作中的应用
2024-01-06 22:03:32
1327
原创 Hive查询之函数(一)
本篇介绍了Hive函数的分类以及Hive函数之复杂类型函数,字符串函数,日期时间函数,数学函数,条件函数,类型转换函数,数学脱敏函数以及加密函数
2023-11-16 22:22:49
500
原创 Hive查询之常用语法
本文总结了Hive的查询操作,可以分为基础查询(单表查询),多表查询,抽样查询,正则模糊查询,union联合查询;还介绍了hive的排序,CTE表达式,以及Hive的内置虚拟列
2023-11-15 19:51:48
593
原创 Linux基础之--Linux命令
本文补全了Linux除基础命令外其它的常用命令,包括帮助手册,用户和用户组基本操作,修改权限方式,常用的快捷键,系统命令包括软件的安装,systemctl服务软连接与硬链接,日期时区的表达;域名解析,网络编程;客户算上传与下载;压缩与加压缩命令
2023-11-14 19:46:09
265
原创 Linux基础之--基础Linux命令
Linux目录结构,Linux四大基础命令及命令格式,Linux常用的其他基础命令;网络编程三要素及SSH原理;vi/vim编辑器的三种工作模式,vi操作文件三大步,vi其他命令
2023-11-13 17:53:52
393
原创 Hive复杂类型之 array struct map
本文简单介绍了Hive的Serde机制和Hive中的复杂类型:array类型,struct类型,map类型,以及这三种类型的创建表,复杂类型的应用
2023-11-13 11:36:48
392
原创 Hive中分区表与分桶表的操作
本文介绍了分区表创建,加载数据,添加分区,删除分区,修改分区名,查看所有分区,同步/修复分区;分桶表的原理,分桶表的创建,排序,数据加载;分区分桶表的区别及分区分桶表的优点
2023-11-12 22:31:26
697
1
原创 hive内部表与外部表的操作
本文介绍了Hive表的分类有内部表与外部表,以及内部表与外部表的基本操作,创建表,修改表,默认分隔符,快速映射表,数据的发导入与导出,文件数据,还有Hive的shell命令
2023-11-12 20:15:38
205
原创 Hadoop架构及Hive环境准备
本文介绍了分布式和集群得概念,详解Hadoop的架构:HDFS,MapRduce,YARN,以及Hadoop集群的启动,同时介绍了Hive环境的准备,启动hive服务和连接hive服务
2023-11-10 17:23:20
139
原创 Hive基础操作
本文介绍包含了三个方面的内容:一是hive的基础操作,包含了hive的mapreduce的关系,hive的流程,hive的服务操作以及hive与客户端的连接,hive数据库的操作;而是元数据的概念,以及元数据存储的三种模式;三是对比了数据库与数据仓库的区别
2023-11-10 12:03:47
97
1
原创 shell编程
shell编程的简介;shell编程的变量可以分为用户变量,环境变量可特殊变量;在Bash中,变量的默认数据类型都是字符串;shell命令和shell脚本的入门
2023-11-07 21:37:30
70
原创 MySQL表约束和查询操作
mysql库中对表的操作,表中字段的操作以及表中记录的操作;表的约束可以分为主键约束,主键自增,非空约束,唯一约束和默认约束
2023-11-01 08:50:47
179
1
原创 MySQL多表查询
多表查询的本质是把多个表通过主外键关联关系连接(join)合并成一个大表,再去查询,多表查询的分类可以分为连接查询,子查询,自连接;本文还拓展了SQL底层的执行顺序,以及MySQL8的新功能开窗函数.
2023-10-29 16:17:56
57
1
原创 元组和字符串
定义空字符串:字符串名=str() 字符串名='' 或者 字符串名="" 或者 字符串名='''''' 或者 字符串名=""""""定义非空字符串:字符串名='内容' 或者 字符串名="内容" 或者 字符串名='''内容''' 或者 字符串名="""内容"""
2023-10-07 12:43:56
56
1
原创 python基础语法
python的基础语法包含字面量,注释,变量,print函数,type函数,以及数据类型的转换,标识符,关键字,运算符,字符串,相关的定义总结,及示例展示
2023-09-30 17:21:00
119
原创 大数据导论&编程语
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 从大数据的导论,大数据学习相关软件,计算机组成,编程语言六个方面简单了解大数据入门的一些基本认识。
2023-09-29 11:22:59
92
大数据导论&编程语言.md
2023-09-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人