
数据仓库
奇妙探险家
浮光跃金,静影沉璧
展开
-
拉链表的hive实现、mysql+kettle实现
hive实现================================================================= 以下方法注意点: 切片表每个字段都不可为空,空值必须使用其他字符串代替!!(因为在求更新表时使用了等值关联) 以下方法只反映了更新和增加,不能反映删除(可以增加一列将记录的删除转化为这一列的更新) 每次将失效记录的失效时间定为昨天,生效记录的生效时...原创 2019-04-03 17:17:09 · 1427 阅读 · 0 评论 -
数据仓库建模
kimball建模: 分析业务流程:客户产生消费 确定最小粒度:每天每个账户 确定维度表:账户信息表 确定事实表:账户消费表 维度建模:星型模型、雪花模型!! 星型模型:一张事实表(横表),关联多张维度表 雪花模型:将维度表拆分为符合范式的多张维度表 范式建模:各表完全拆分,符合三范式 维度建模、范式建模对比:维度建模(宽表)方便查询,减少关联,但是占空间,不利于更新,适用于面向下游...原创 2019-04-07 01:49:47 · 752 阅读 · 0 评论 -
维度建模笔记
1、四步骤: 确定业务过程:客户广告业务 确定最小粒度:每个账户的日消费快照 确定维度表:产品线维度、账户维度、 确定事实表:主键、可加型数值 2、确保建模基于最细粒度,便于增加新的维度。 2、维度表主要包含不可加的分类信息,用于筛选记录 维度表可以拆分为多个,是否拆分取决于维度体系的相关性,例如月份与季度关系密切,可以一起放入日期维度表,而日期与行业完全无关,如果放一起就会产生m*n...原创 2019-04-21 17:28:59 · 328 阅读 · 0 评论 -
数据接口形式
1、非规范 暴露数据库,为用户创建数据库账号,用户直接连接数据库使用SQL获取数据 FTP,为每个用户新建一个FTP服务器,定时输出数据文件到发布目录 2、规范 前端界面,用户在前端界面上执行SQL,下载数据(Hue) 后端API,启动数据发布服务,用户通过API向服务器提交任务查询拉取数据 后端客户端,使用定制的查询客户端封装后端API(QueryEngine) ...原创 2019-05-31 09:08:24 · 1115 阅读 · 0 评论