
大数据实践之路-数据仓库
文章平均质量分 60
关于大数据数据仓库领域-企业实践的总结,如果你到了数仓领域的瓶颈或者正在“遭遇“数仓的折磨,那么这个专栏或许为你带来转机,
优惠券已抵扣
余额抵扣
还需支付
¥99.90
¥299.90
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
《数据民工包工头》
坚信大数据改为未来的“数据包工头”
展开
-
大数据实战之路-实时数仓-实时数仓架构
# 流批一体架构## 技术栈### 开发语言(三者都可以)* Java * Scala* Python### 技术选型* K8s* Debezium* Kafka* Flink (Hdfs, RockDB)* Clickhouse* Doris* ElasticSearch* MySQL* DataX (离线抽取, 主要用于历史,历史数据初始化)### 批流一体架构 # 任务启动时间job_start=`date "+%Y-%m-%d %H:%M:%S"` # ************************原创 2021-01-12 09:49:08 · 1311 阅读 · 0 评论 -
大数据实践之路-研发工具-clickhouse客户端类似hive客户端工具实现
客户端工具: clickhouse-client-etlclickhouse-client-etl -h ************************************************* 帮 助 文 档 *************************************************** clickhouse-client-etl 参数说明 -f SQL文件路径 -q 查询SQL,当有此参数时,-f 参数失效 --chvar原创 2021-05-18 10:35:31 · 443 阅读 · 0 评论 -
大数据实践之路-研发工具-ETL任务依赖问题解决方案
ETL任务依赖问题解决方案背景现有的任务调度工具目前仅仅支持在调度系统内部的依赖,但是无法提供ETL任务解耦的功能,对于数仓主题域建设过程中,难免出现,任务依赖耦合度较高的情况存在,所以博主在这个痛点基础上,设计了任务依赖的功能。目的1、实现ETL任务的解耦, 降低任务之间的依赖,减轻调度系统依赖的复杂度2、为对外服务提供上有数据表任务状态情况,下游可以根据状态判断是否继续执行下游任务,提高数据运维的稳定性和复杂度。CheckTableAPI 功能描述1.获取ETL表状态数据: GE原创 2021-05-18 13:23:34 · 716 阅读 · 1 评论 -
数据仓库-Hive SQL处理连续相邻数据
数据仓库-Hive SQL处理连续相邻数据(连续响相邻数据个数是未知的)例如如下场景计算库存连续缺货时长问题。统计连续节假日问题。下面以统计连续节日问题,进行探讨先来DISS下,这个问题,也是之前在招聘面试中,涉及的最后一道压轴题,99%的人没有正确或者完整回答上来,下面以这个为例子,进行探讨。 如下,从连续日期的是否是否促销的基础数据中,标记出促销的开始日期和结束日期;这个问题发展演变下,和从库存变动记录中,计算连续缺货时长的统计分析,接下大家可以先想下如何解题。 问题解决思原创 2021-05-28 16:18:55 · 837 阅读 · 0 评论 -
数据仓库-你不知道的HSQL?
你不知道的HSQL?创建demo数据create table dwd.dwd_order_item ( order_id bigint , goods_id bigint , bctg bigint , bctg_en string, amt double, qty double, load_etl_time timestamp comment 'ETL LOAD TIME') comment ''partitioned by (dt stri原创 2021-05-18 17:24:26 · 210 阅读 · 0 评论 -
大数据实战之路-数据仓库-项目运维交接文档
项目向运维的交接必须满足以下条件,目的是: 1)要求开发阶段文档规范和代码效率等能够完整且质量高 2)以运维的角度倒推我们已开发项目的高质量交付 3)以后所有交付的项目要运维先做验收,不符合者迭代修改一、项目交接资料 1.1项目简介(PRD、ETL设计文档、数据字典、测试文档、模型原型图、数据的流向图) 注: a.文件命名须以 项目名称+...原创 2021-03-25 11:01:01 · 990 阅读 · 0 评论 -
大数据实战之路-实时数仓-基于SparkStreaming的流维关联实现
目录以电商的交易订单场景为例业务实现的部分功能功能设计任务提交以电商的交易订单场景为例描述: 一般的交易订单可能会涉及到多个表的,例如交易订单头信息,交易订单行明细,配送订单等等, 下面以订单头信息和订单行明细两个数据流为例,完成双流join的功能。流数据介绍:交易订单头包含: 订单号, 父订单号, 配送单号, 渠道号, 下单日期, 订单状态, 下单门店, 配送门店, 送货方式, 订单类型, 运费, 订单满减等等 交易订单行明细包括: 交易订单行明细ID, 订单号, 订单行原创 2021-03-23 11:31:02 · 663 阅读 · 0 评论 -
大数据实践之路-数据仓库-hive批量删除/增加分区
注意: 增加日期变量 p_date ,为了防止start_date在while循环过程中,发生变化,变为和end_date一样的值。#! /bin/bashstart_date=${1:-`date -d "-32 day" "+%Y-%m-%d"`}end_date=${2:-`date -d "-1 day" "+%Y-%m-%d"`}table_name="vn0c43l.mid_dim_hyper_shop_div_dept_day_v2" # hive 批量删除分区sql_dp=原创 2021-01-14 09:53:34 · 836 阅读 · 1 评论 -
大数据实践之路-数据仓库-数据开发自测模板
在实际的数据开发过程中,数据测试是我们的痛点,如果没有良好的标准与测试方法,那么消耗掉的不只是我们的数据开发的成本,甚至更严重的是数据质量问题,经过本人多年的实践经验,严格按着一下模板去测试,可以解决我们再开发上95%的问题。特别是要注意下,关于指标可累加与不可累加问题。1、概览目的:可以清楚的知道哪些表验证已经OK,哪些还存在问题。字段信息:序号 表名 描述 是否通过 重要程度 备注 2、数据.原创 2021-01-12 10:05:38 · 827 阅读 · 0 评论