
数据仓库
mtj66
这个作者很懒,什么都没留下…
展开
-
工作流引擎 Oozie 安装 结合HUE使用
ref http://blog.youkuaiyun.com/nsrainbow/article/details/43746111Oozie是什么简单的说Oozie是一个工作流引擎。只不过它是一个基于Hadoop的工作流引擎,在实际工作中,遇到对数据进行一连串的操作的时候很实用,不需要自己写一些处理代码了,只需要定义好各个action,然后把他们串在一个工作流里面就可以自动执行了。对于转载 2017-08-28 10:01:26 · 1872 阅读 · 0 评论 -
oozie 常用命令
1.提交作业,作业进入PREP状态 oozie job -oozie http://localhost:11000/oozie -config job.properties -submit job: 14-20090525161321-oozie-joe2.执行已提交的作业oozie job -ooziehttp://localhost:11000/oozie转载 2017-08-28 09:58:35 · 396 阅读 · 0 评论 -
pgsql存储过程中-变量引用以及表名,列名使用
本文实现了一个按照指定百分位的数据生成等距的序列值,分位数的数据按照每增长一个百分点分一组,如果分组的数据没有值自动会合并到下一组,直到满足条件的分组,上限100组哦.TODO优化:动态分组,并且不限制分组数量.思路1 将分组后的数据进行自关联(需要转成行记录),拿到本组以及下一个分组的数值,然后和需要分组的表进行关联当需要分组的字段落地对应的分组区间的时候(此处采用不等值连接,不知道...原创 2019-01-15 18:11:42 · 9821 阅读 · 0 评论 -
帆软可视化方案设计
在此帮朋友打个广告,朋友做帆软一级供应商,提供帆软产品以及可视化解决方案咨询服务目标人群:1、可视化需求调研的朋友:可视化演示地址,http://demo.finereport.com/decision/login?origin=02edab18-2a57-4949-a290-7f631b8ccaf92、帆软可视化需求支持,请联系我WX:SpringBreeze1104...原创 2020-10-21 14:45:51 · 912 阅读 · 0 评论 -
odps正则抽取省份以及城市
在odps中使用方式如下 。-- select 1,-- case when length(regexp_extract('上海市浦东新区西门路588弄-39-~42号','(.+省|.+自治区)(.+市)',1))=0 -- then regexp_extract('上海市浦东新区西门路588弄','(.+市)',1)-- else regexp_extract('上海市浦东新区西门路...原创 2018-08-14 11:25:59 · 1619 阅读 · 2 评论 -
一文搞定数据仓库之拉链表,流水表,全量表,增量表
1. 全量表:每天的所有的最新状态的数据,2.增量表:每天的新增数据,增量数据是上次导出之后的新数据。3.拉链表:维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录而已,通过拉链表可以很方便的还原出拉链时点的客户记录。4. 流水表: 对于表的每一个修改都会记录,可以用于反映实际记录的变更。 拉链表通常是对账户信原创 2017-09-18 15:09:07 · 42075 阅读 · 1 评论