千亿项目
a大数据yyds
大数据初学者
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
千亿数仓项目_(用户浏览记录整理分析(点击流分析))
用户浏览记录整理分析(点击流)用户行为日志1 日志数据格式日志数据内容样例f5dd685d-6b83-4e7d-8c37-df8797812075 222.68.172.190 - - 2018-11-01 14:34:57 “GET /images/my.jpg HTTP/1.1” 200 19939 “http://www.angularjs.cn/A00n” “Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko原创 2020-06-05 17:14:07 · 921 阅读 · 0 评论 -
千亿数仓第四章(指标计算_用户的退货指标分析)
退货表指标统计参考代码:–dw层创建fact_order_refunds表drop table if exists itcast_dw.fact_order_refunds;create table itcast_dw.fact_order_refunds(id bigint,orderId bigint,goodsId bigint,refundTo bigint,refundReson原创 2020-06-05 15:44:31 · 577 阅读 · 0 评论 -
千亿数仓第四章(指标计算_用户订单指标业务开发)
用户订单指标业务开发3.1 需求分析电商平台往往需要根据用户的购买数据来分析用户的行为,此处。我们基于用户的订单情况进行一些统计分析,用于将来的用户行为分析。根据用户的消费行为习惯,对运营部门提供用户分析数据指标。表是订单表!!以下为本需求需要统计的基于用户的订单指标:3.2 创建dw层表1、创建itcast_dw.dim_user表drop table if exists itcast_dw.dim_user;create table itcast_dw.dim_user(user原创 2020-06-05 15:38:07 · 875 阅读 · 0 评论 -
千亿数仓第四章(指标计算_订单分析地域、分类维度分析业务开发)
2订单分析地域、分类维度分析业务开发总结需求1:ads数据都来源于dw, DW层数据都来源于ods。 ads一张表存储了18个需求的所有数据2.1 需求分析集团总公司分为很多的分公司(销售事业部)为了公司的经营需要,公司需要定期检查各个分公司的经营指标完成情况,运营部门提出数据分析需求:交易金额交易笔数微信交易笔数支付宝交易笔数维度如下:商品分类行政区域要求:最终可以根据不同大区、不同城市、不能分类级别查询交易数据,也就是要求支持不同维度的组合查询。需求:获原创 2020-06-05 15:04:55 · 1052 阅读 · 0 评论 -
千亿数仓第四章(指标计算_基于日期的订单指标分析)
数仓项目 - 订单分析时间维度分析业务开发总结需求1:ads数据都来源于dw, DW层数据都来源于ods。 ads一张表存储了四个需求的所有数据准备日期数据 drop table if exists `itcast_dw`.`dim_date`; CREATE TABLE `itcast_dw`.`dim_date`( `date_key` string, `date_value` string, `day_in_year` string, `day_in_month` s原创 2020-06-05 12:29:14 · 620 阅读 · 0 评论 -
千亿数仓项目(数仓理论_商品维度数据装载(拉链表))
商品维度数据装载(拉链表)拉链表设计:1.采集当日全量数据存储到 ND(当日) 表中。2.可从历史表中取出昨日全量数据存储到 OD(上日数据)表中。3.用ND-OD为当日新增和变化的数据(即日增量数据)。两个表进行全字段比较,将结果记录到tabel_I表中。4.用OD-ND为状态到此结束需要封链的数据。 (需要修改END_DATE);两个表进行全字段比较,将结果记录到tabel_U表中 。5.历史表(HIS)比ND表和OD表多两个字段(START_DATE,END_DATE)6.将ta原创 2020-06-05 12:18:48 · 610 阅读 · 0 评论 -
千亿数仓项目第三章(数仓理论_缓慢变化维)
缓慢变化维4.1 什么是缓慢变化维(SCD)1、缓慢变化维简介缓慢变化维,简称SCD(Slowly Changing Dimensions)一些维度表的数据不是静态的,而是会随着时间而缓慢地变化(这里的缓慢是相对事实表而言,事实表数据变化的速度比维度表快)这种随着时间发生变化的维度称之为缓慢变化维把处理维度表数据历史变化的问题,称为缓慢变化维问题,简称SCD问题2、举例说明例如:用根据用户维度,统计不同出生年份的消费金额占比。(80后、90后、00后)。而期间,用户可能去修改用户数原创 2020-06-05 12:05:14 · 536 阅读 · 0 评论 -
千亿数仓第三章(数仓理论_项目环境初始化)
项目环境初始化3.1 Hive分层说明分库存放ods层dw层ads层命名规则ods层表与原始数据库表名称相同dw层表ofact_前缀表示事实表odim_前缀表示维度表创建分层数据库:create database itcast_ods;create database itcast_dw;create database itcast_ads;3.2 创建ods层数据表hive 分为外部表与内部表,为便于管理,该部分均使用内部表(内外部表的区别就在于删除表的时原创 2020-06-05 11:18:35 · 373 阅读 · 0 评论 -
千亿数仓项目第三章(数仓理论_数据仓库开发)
数据仓库开发业务系统表结构介绍订单表itcast_orders订单明细表 itcast_order_goods商品信息表 itcast_goods店铺表 itcast_shops商品分类表 itcast_goods_cats组织结构表 itcast_org订单退货表 itcast_order_refunds用户表 itcast_users用户收货地址表 itcast_user_address支付方式表itcast_payments数据:链原创 2020-06-05 11:05:47 · 437 阅读 · 0 评论 -
千亿数仓项目第三章(数仓理论介绍)
数据仓库维度模型设计维度建模基本概念维度建模的作用:维度建模以分析决策的需求出发构建模型, 为分析需求服务, 它重点解决用户如何更快速完成分析需求。维度建模是专门应用于分析型数据库、数据仓库、数据集市建模的方法。数据集市可以理解为是一种"小型数据仓库"。事实表:发生在现实世界中的操作型事件,其所产生的可度量数值,存储在事实表中,可以理解他就是在现实中发生的一次操作型事件。事实表的特征:表里没有存放实际的内容,他是一堆主键的集合,这些ID分别能对应到维度表中的一条记录。维度表:维度表示要对数据进原创 2020-06-05 10:44:36 · 442 阅读 · 0 评论 -
千亿数仓2_使用Kettle生成日期维度数据
使用Kettle生成日期维度数据需求:为了后续分析销售订单金额、订单笔数的周环比、周同比、月环比、月同比,需要提前使用Kettle生成时间维度工具(环比是相邻比较,同比是历史同期比较)按照以下字段生成 2019年一年的日期维度数据分析:日期使用 Canlendar、SimpleDateFormat,编写Javascript脚本实现国家法定节假日实现,需要往http://api.goseek.cn/Tools/holiday?date=20190102 年月日,发送请求,获取结果,以下为该RES原创 2020-06-05 10:25:58 · 1543 阅读 · 2 评论 -
千亿级数仓项目第二章(Kettle)
Kettle介绍对于企业或行业应用来说,经常会遇到各种数据的处理,转换,迁移,掌握一种etl工具的使用,必不可少,这里要学习的ETL工具是——Kettle,现在已经更名为PDI。Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出Kettle允许管理来自不同数据库的数据,提供一个图形化的用户环境来描述想做什么,无需关心怎么做。原创 2020-05-28 17:44:55 · 1312 阅读 · 0 评论 -
千亿级数仓项目第一章
千亿级数仓项目总体介绍数仓: 数据仓库 数据集市阶段一项目背景介绍阶段二准备数据(Mysql->Hive)Kettlesqoop阶段三数据仓库理论+实战阶段四编写SQL实现以下业务分析,并按照数据仓库结构存出结果基于日期的订单指标分析(4)基于地域的订单分类指标分析(18)基于用户的订单指标分析(24)基于用户的退货指标分析(5)阶段五使用kylin对结果数据进行预计算阶段六点击流分析阶段一了解大数据离线数仓架构了解项目部署环境(数据规模和集群规模)原创 2020-05-28 08:33:07 · 502 阅读 · 0 评论 -
千亿数仓的sql
需求1数据:链接: https://pan.baidu.com/s/1M6xkkbZUSpXneaNX0d–Rg 提取码: unkt• 统计2019年期间每个季度的销售订单笔数、订单总额select caseWhen month(createTime) between 1 and 3 then ‘一季度’When month(createTime) between 4 and 6...原创 2020-04-28 19:59:59 · 2326 阅读 · 1 评论
分享