- 博客(12)
- 收藏
- 关注
原创 尚硅谷车险离线数仓项目总结
本项目基于尚硅谷的车险离线数仓项目。以模拟生成的车险数据作为依托,包含数据的同步、数仓分层理论、维度建模理论、数仓工作流调度、数据结果展示等内容。本文是对该项目进行一个汇总型的总计,建议完成该项目后再来阅读本文。在本文中,我们将简述该项目中所使用到的所使用到的技术栈,并对数仓建模相关的内容进行介绍。
2024-01-13 15:51:48
1861
原创 spark core相关知识点
弹性分布式数据集,spark中最基本的数据抽象代表一个不可变、可分区、元素可并行计算的集合Resilient:RDD中的数据可存储在内存或者硬盘中Distributed: 数据是分布式的,可用于分布式计算Dataset: 数据集合,用于存放数据。
2023-11-25 23:50:59
962
原创 pyspark的部署,standalone模式和yarn模式的原理以及一些运用
开启spark服务之前要先优先打开hdfs服务和相应的历史服务器。
2023-11-25 23:50:17
1859
原创 hive 复杂数据类型
在创建表的时候声明array类型最后表示array中的元素通过’,'进行分隔可以通过 查询对应的值,下标从0开始例tbl表中的列为array类型,表示查询第一个元素统计数组元素个数,使用查询array中是否包含某个元素,使用函数map映射类型key_value键值对的数据格式建表的语句后面的表示的就是字段之间的分割符示例查询所有记录指定key的value取出map中的全部key返回的数据类型是一个array取出map中的全部value同样返回一个array查看map中包含的键值对数量
2023-09-03 22:45:44
119
原创 hadoop hive 数据表
load data的过程中不会启动mapreduce,就不会对数据进行计算,也就无法执行hash算法,只能进行数据移动,因此无法插入分桶表数据。当一个表的数据太大了,将其按照一定的规则分割成小的文件,去操作小的文件,每一个分区就是一个文件夹。数据在放入分桶表中的时候,将数据一份为三,该数据划分的原则时基于分桶列的值进行hash散列。可以又分区又分桶,先进行分区,在分区的子文件夹中,将子文件夹中存放的文件进行分桶。的列的数据进行加密转化,对其进行取模,取模的数基于分桶的数量。
2023-09-03 22:44:52
64
原创 hive部署、简单语法、数据库、数据表
Apache HIVE是分布式SQL计算工具,主要功能是将SQL翻译成MapReduce程序运行,写的是SQL,但是执行的MapReduce。
2023-08-20 21:38:43
84
原创 hadoop学习 hdfs原理、MapReduce、Yarn
分布式存储:每个节点存储文件的一部分设置统一的管理单位:block块block是hdfs最小的存储单位,每个block256mb(该大小可以修改)当某一个block可能出现丢失损坏的可能多个副本备份,每个服务器上放一个block的副本,提高安全性。
2023-08-19 23:15:14
82
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人