- 博客(24)
- 收藏
- 关注
原创 新零售项目总结01
随着经济和技术的发展,经历了多种不同形式的发展:地摊、卖货郎百货商店超级市场连锁商店电子商务新零售:线上服务、线下体验以及现代物流进行深度融合的零售新模式。
2023-01-02 10:44:58
589
原创 kafka简单使用
kafka是apache旗下的一款开源免费的消息队列中间件,最早由LinkedIn开发,后面贡献给Apache,目前是Apache旗下顶级开源项目(http://www.kafka.apache.org),该中间件采用Scala语言进行开发。
2022-12-04 15:28:39
892
原创 hive缓慢变化维
维度建模的数据仓库中,有一个概念叫Slowly Changing Dimensions,中文一般翻译成”缓慢变化维”,经常被简写为SCD。缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流失发生缓慢的变化。这种随时间发生变化的维度我们一般称之为缓慢变化维,并且把处理维度表的历史变化信息的问题称为处理缓慢变化维的问题,有时也简称为处理SCD的问题。
2022-11-06 18:42:07
969
2
原创 Sqoop的使用
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop工作机制是将导入或导出命令翻译成mapreduce程序来实现。
2022-10-30 18:19:50
504
原创 简单说说MapReduce运行过程和Yarn
客户端向Yarn一次提交多个任务时,Yarn如何去给多个任务分配资源,此时就需要使用调度器,通俗的来讲,调度器就是来规定多个任务如何分配Yarn的资源。
2022-10-03 00:02:53
844
原创 hdfs小文件合并和hdfs高可用方案
由于HDFS会在NameNode中存储元数据,而元数据是存在于内存中,所以HDFS是不适合用来存储小文件的。针对存在的问题,在HDFS可以进行小文件合并的操作。
2022-09-17 17:50:40
2493
原创 HDFS小记
HDFS,全称:Hadoop Distributed File System,即Hadoop分布式文件系统,它来源于Google的发布的GFS。
2022-09-11 12:20:57
1203
原创 Shell+crontab定时搬运日志
Shell 常用来写一些自动化的工具,比如我们平时的应用产生的日志文件,在知道日志文件产生的规律之后,我们可以用linux命令轻易得到对应的日志文件位置,从而获取其中的日志数据,进而进行搬运处理,利用shell+crontab可以实现定时日志的搬运。...
2022-08-27 17:30:40
581
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人