
数仓
MrChang@
这个作者很懒,什么都没留下…
展开
-
数仓增量更新数据
数仓 资源层 增量 更新数据select * from 库2.表1union allselect a.* from 库1(原始数据层).表1 aleft outer join 库2(资源层).表1 bon a.id = b.id where b.id is null;然后根据分区字段 加载入新的分区insert overwrite table 资源库.资源表(PARTITION(l...原创 2020-02-25 10:10:12 · 893 阅读 · 4 评论 -
hive、hadoop面试题
有如下hive记录表records,记录车辆的过车信息:create table records( id string, //记录编号 indate string, //过车记录时间 plate_no string, //车辆号牌 device_id int, //经过的设备编号)partitioned by(month string,day string)row format delimited fields terminated by '\t' stored as ORC;1...原创 2020-07-19 19:19:48 · 419 阅读 · 0 评论 -
一次hive笔试题
题目一:selectt1.uid,t1.发过多少日记,t2.获得多少点赞from(selectuid,count(*) as 发过多少日记from T1group by uid)t1left join(selectuid,sum(like_uid) as 获得多少点赞from T1 join T2on T1.log_id =T2.log_idgroup_by uid)t2on tt1.uid=tt2.uid题目二:1.selectidfrom(sel原创 2020-05-11 21:18:05 · 525 阅读 · 0 评论 -
数仓建模
1.数据仓库建模的目的?为什么要进行数据仓库建模?大数据的数仓建模是通过建模的方法更好的组织、存储数据,以便在 性能、成本、效率和数据质量之间找到最佳平衡点。一般主要从下面四点考虑访问性能:能够快速查询所需的数据,减少数据I/O数据成本:减少不必要的数据冗余,实现计算结果数据复用,降低大数 据系统中的存储成本和计算成本 使用效率:改善用户应用体验,提高使用数据的效率数据质量:改善数据统计...转载 2020-04-19 15:29:51 · 3079 阅读 · 1 评论 -
数据仓库有关问题
添加链接描述ods dw dm 的区别ODS应用场景A. 在业务系统和数据仓库之间形成一个隔离层,ODS直接存放从各个业务系统抽取过来的数据,这些数据从结构和数据逻辑关系上和业务系统保持一致,降低了数据抽取的复杂性。它的存在可以避免数据仓库直接调用业务系统的数据。B. 转移一部分业务系统细节查询的功能。因ODS存放的数据与业务系统相同,原来由业务系统产生的报表,现在可以从ODS中产生了...转载 2020-03-31 22:08:41 · 467 阅读 · 0 评论