
数据仓库
文章平均质量分 79
男爵大主宰
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据仓库维度建模知识点
原创 2020-06-09 14:51:15 · 227 阅读 · 0 评论 -
HIVE数据倾斜
数据倾斜的定义由于各种原因造成数据分布不均匀,造成数据大量集中在一点,造成数据热点。数据倾斜产生的现象执行任务的时候,任务进度卡在99%,打开监控查看,只有一个或N个reduce任务处于运行未完成的状态。 这是因为处理的数据数量相比较其他reduce节点数据要大单一reduce处理数据量比平均reduce处理的数据量要大,通常是3倍甚至更多。处理时间也大于平均时长。数据倾斜的情况数据倾斜的原因Key 分布不均匀业务本身对某些维度需求较集中建表的时候未考虑周到某些SQL语句执行原创 2020-05-29 15:45:12 · 369 阅读 · 0 评论 -
UDF校验身份证号
身份证号分为15位,18位的,这里写成两个UDF,写一个UDF大佬也不乐意,判定规则为18位长度是否满足18位身份证号中是否包含乱码末尾校验码是否正确前两位是否为省份编号日期格式是否正常15位身份证校验(缺少两位年数据,和一位校验码数据)1.是否都为数字2.日期加19是否满足日期格式3.省份是否正常4,数据是否含有乱码5,长度是否符合/*18位身份证号校验 */package com.shnqin.udf.dev;import java.util.regex.Pa原创 2020-05-28 11:37:49 · 1043 阅读 · 0 评论 -
HIVE UDF编写之两个时间之内的工作日天数,自动去除节假日和添加调休日
因为提交UDF的时候,阿里云的MAXcompelet 不支持加载resource下的文件,故将节假日日期写入到list集合里面,这个UDF 产出的形式是UDF_name(Start_time,End_time) 返回 工作日天数入参日期格式为 : yyyy-MM-dd首先编写日期遍历utils 工具类package com.shnqin.udf.dev.util;import java.text.DateFormat;import java.text.ParseException;imp原创 2020-05-28 11:27:41 · 3153 阅读 · 4 评论 -
数据仓库入门
数据仓库维度概念信息系统的两个主要类型操作型系统(OLTP)和分析型系统(OLAP)操作型系统分析型系统目的执行业务过程(例如人力资源要统计人员的升迁情况,涉及单个事务*(DB一条记录)*,具有原子性)度量业务过程 (例如某地某时间周期内查询最佳客户,查询需要涉及大量的事务)主要的交互类型增,删,改,查查询操作交互范围单个事务(单条信息)多个事务...原创 2019-11-03 21:18:00 · 163 阅读 · 1 评论