自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 SparkSQL综合案例练习2

spark sql

2023-02-20 22:19:58 462

原创 SparkSQL案例练习

t。

2023-02-12 20:34:19 444

原创 PySpark(spark core)相关练习题

pyspark

2023-02-02 14:52:34 330

原创 新零售项目总结03

1

2023-01-17 12:36:31 222

原创 新零售项目总结02

如题

2023-01-07 14:45:32 198

原创 新零售项目总结01

随着经济和技术的发展,经历了多种不同形式的发展:地摊、卖货郎百货商店超级市场连锁商店电子商务新零售:线上服务、线下体验以及现代物流进行深度融合的零售新模式。

2023-01-02 10:44:58 589

原创 Flume简单使用

flume

2022-12-23 18:20:43 183

原创 HBase笔记

hbase笔记

2022-12-18 20:12:01 275

原创 kafka核心原理

kafka核心原理

2022-12-08 15:30:49 150

原创 kafka简单使用

kafka是apache旗下的一款开源免费的消息队列中间件,最早由LinkedIn开发,后面贡献给Apache,目前是Apache旗下顶级开源项目(http://www.kafka.apache.org),该中间件采用Scala语言进行开发。

2022-12-04 15:28:39 892

原创 Hive 中 row_number的使用

Hive 中 row_number的使用

2022-11-29 17:33:05 2128

原创 presto结合grouping、grouping set实现统计宽表

presto统计宽表

2022-11-21 23:22:34 547

原创 Hive聚合函数:Grouping set、Cube、Rollup

hive聚合函数

2022-11-13 17:46:27 1070

原创 hive缓慢变化维

维度建模的数据仓库中,有一个概念叫Slowly Changing Dimensions,中文一般翻译成”缓慢变化维”,经常被简写为SCD。缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流失发生缓慢的变化。这种随时间发生变化的维度我们一般称之为缓慢变化维,并且把处理维度表的历史变化信息的问题称为处理缓慢变化维的问题,有时也简称为处理SCD的问题。

2022-11-06 18:42:07 969 2

原创 Sqoop的使用

Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop工作机制是将导入或导出命令翻译成mapreduce程序来实现。

2022-10-30 18:19:50 504

原创 Hive压缩、存储与优化

hive压缩、存储和优化

2022-10-23 18:36:45 796

原创 hive的常规操作

关于hive的基本操作

2022-10-16 16:15:16 757

原创 简单说说MapReduce运行过程和Yarn

客户端向Yarn一次提交多个任务时,Yarn如何去给多个任务分配资源,此时就需要使用调度器,通俗的来讲,调度器就是来规定多个任务如何分配Yarn的资源。

2022-10-03 00:02:53 844

原创 MapReduce关于shuffle的那些事

shuffle

2022-10-02 00:38:26 895

原创 MapReduce词频统计

MapReduce,用一句话概括就是:分而治之。

2022-09-25 19:44:39 1882 1

原创 hdfs小文件合并和hdfs高可用方案

由于HDFS会在NameNode中存储元数据,而元数据是存在于内存中,所以HDFS是不适合用来存储小文件的。针对存在的问题,在HDFS可以进行小文件合并的操作。

2022-09-17 17:50:40 2493

原创 HDFS小记

HDFS,全称:Hadoop Distributed File System,即Hadoop分布式文件系统,它来源于Google的发布的GFS。

2022-09-11 12:20:57 1203

原创 zookeeper小记

zookeeper小记

2022-09-04 17:35:14 521

原创 Shell+crontab定时搬运日志

Shell 常用来写一些自动化的工具,比如我们平时的应用产生的日志文件,在知道日志文件产生的规律之后,我们可以用linux命令轻易得到对应的日志文件位置,从而获取其中的日志数据,进而进行搬运处理,利用shell+crontab可以实现定时日志的搬运。...

2022-08-27 17:30:40 581 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除