
自己玩的大数据(练习)
这里放着一些有用的练习,项目,从小做起,再做稍大的项目
Jecky不姓码
忙到没时间更新了
展开
-
6、数据仓库电商项目(尚硅谷第二版) ADS层
6、数据仓库电商项目 ADS层上一章节:5、数据仓库电商项目 DWT层本章需求 ADS层数据展示 注:按照需求自己要敲一遍,可以百度,但切记不要 重度 粘贴复制。 前面做的所有准备都是为了在ADS层进行展现,ADS层相对就好写一点了 后买的自动任务流程,比如阿兹卡班,ooize,会在后面更原创 2020-11-24 17:04:02 · 731 阅读 · 0 评论 -
5、数据仓库电商项目(尚硅谷第二版) DWT层
5、数据仓库电商项目 DWT层本章需求 DWT累积性全量表建模 注:按照需求自己要敲一遍,可以百度,但切记不要 重度 粘贴复制。 越到后面越难,各种表间关系和聚合,现在没时间仔细写,先把一些文档复制上来,后面慢慢补充~DWT层的概括DWT层将DWS层每日聚合的数据进行积累,DWT层不是分区表,是一个累积型全量表,并且数据来源与DWS层。累积性全量表:查询要改动的旧数据原创 2020-11-24 16:22:06 · 859 阅读 · 1 评论 -
4、数据仓库电商项目(尚硅谷第二版)DWS层
4、数据仓库电商项目 DWS层本章需求 1. DWS层用户行为数据统计 2. DWS层业务行为数据统计 注:按照需求自己要敲一遍,可以百度,但切记不要 重度 粘贴复制。 上一章说完了DWD层的分解,是比较有难度的,由于时间限制,我写的比较仓促,以后有时间会慢慢的补上。DWS层的概括&nb原创 2020-11-24 15:25:30 · 809 阅读 · 0 评论 -
3、数据仓库电商项目(尚硅谷第二版)DWD下
3、数据仓库电商项目(尚硅谷第二版)DWD下本章需求 1. 用户行为数据启动表展开,实现DWD层 2. 用户行为数据时间表展开,实现DWD层 3.业务数据的展开,实现DWD层 注:按照需求自己要敲一遍,可以百度,但切记不要 重度 粘贴原创 2020-11-23 16:24:48 · 722 阅读 · 0 评论 -
3、数据仓库电商项目(尚硅谷第二版)DWD上
第三章 DWD层!数仓建模本章需求 1. 用户行为数据启动表展开,实现DWD层 2. 用户行为数据时间表展开,实现DWD层 3.业务数据的展开,实现DWD层 注:按照需求自己要敲一遍,可以百度,但切记不要 重度 粘贴复制。启动日志原创 2020-11-23 13:32:59 · 882 阅读 · 1 评论 -
2、数据仓库电商项目(尚硅谷第二版)ODS层
第二章 建模!ODS层数据分析本章需求: 1. 对用户行为数据,业务数据进行建模 2. 建立ODS层,将业务数据及行为数据按照表的形式存入HDFS中 注:按照需求自己要敲一遍,可以百度,但切记不要粘贴复制。什么是建模? 目前数据处理可以分为两大类:联机事务处理OLTP(原创 2020-11-20 20:18:26 · 1963 阅读 · 4 评论 -
1、数据仓库电商项目(尚硅谷第二版)
前言 读者你好,很高兴你能看到这篇文章,这是一份关于大数据电商项目的深度学习。学习之前请花费几分钟看一下下面关于我的自述。 我纠结写这个已经很久了,我24岁毕业,本科计算机,现在26了,考研失败于是在第一年(2018)年底找工作,第一份工作是少儿编程讲师,个人认为自己适合当老师,所以还是挺喜欢这份工作,但是奈何在不知道几线的小城市里拿着不到3k的工资,实在难以活下.原创 2020-11-19 21:20:27 · 2252 阅读 · 1 评论 -
大数据实践练习系列【3、数据导入Hive中,了解HIve数据】
场景说明:数据目前我们已经存放在了HDFS中,不难发现数据是以行出现,用‘\t’进行了分割。我们接下来就是对这些数据进行Hive操作,达到练习的目的。最终实现数据的清洗,可以使用javaweb配合ELK进行展示。1、数据的导入在读入表的时候我们设置了以”\t“进行行的分割所以我们在导入数据的时候就会根据换行符进行数据的导入,我们的数据目前来说是比较规范并且简单的,所以导入数据不存在数据清洗的步骤。目前我们也暂时不做分区。数据导入语句load data inpath '/test/dep.原创 2020-10-22 16:42:31 · 299 阅读 · 0 评论 -
大数据实践练习系列【2、数据保存到HDFS】
场景描述:数据生成后,需要备份到hdfs中,当前数据生成在根目录下:组件环境 CDHQQ交流群628465680,新群没几个人,人多了再加微信1、操作步骤在hdfs中创建test目录,下面创建dept,emp目录hadoop fs -mkdir /testhadoop fs -mkdir /test/emphadoop fs -mkdir /test/emp上传文件至这个两个文件夹hadoop fs -put dept.csv /test/dept/hadoop fs -put.原创 2020-10-22 11:55:59 · 602 阅读 · 1 评论 -
大数据实践练习系列【1、数据模拟生成】
场景描述:因技术需要,目前恶补技术问题,先从小小的demon做起,大项目咋这技术也搞不定。此次计划,首先模拟数据生成,生成后导入hdfs中,继续落盘到hive中进行练习。期间使用到的工具计划包含Hive,HDFS,Flume,Kafka,ELK等。组件环境 CDHQQ交流群628465680,新群没几个人,人多了再加微信1、模拟数据生成,目的提供数据量,使用这些数据去做一些清洗以及传输创建 Maven 工程 Table_emp_deptpom.xml<?xml version=.原创 2020-10-22 11:24:49 · 1084 阅读 · 0 评论