- 博客(3)
- 收藏
- 关注
原创 Linux汇总
数组定义:数组用括号来表示,元素用“空格”符号分割开,如果元素中包含空格,则该元素使用双引号引起来访问元素: echo ${数组名[*]} 获取数组中所有元素遍历:/bin/bashdo。echo $idone默认partitioner:默认分区是根据key的hashCode(哈市叩的)对Reduce Tasks个数取模得到的。用户没法控制哪个key储存到哪个分区。自定义partitioner:①自定义类继承partitioner,重写getPartitioner()方法;
2023-04-28 13:47:48
164
1
原创 ETL面试题目
存储过程是一段预编译的SQL代码,可以接受参数并返回结果。使用场景包括:提高数据库性能、简化代码、保证数据安全性、实现复杂业务逻辑。最近我参与了一个项目,在存储过程中实现了一个批量插入数据的逻辑,通过拆分数据为多个批次,减轻了数据库的负担,提高了效率。我曾使用过的ETL工具包括Talend和Pentaho。主要功能包括数据抽取、转换、加载,数据清洗和校验,数据转化和集成。使用场景包括:BI和数据仓库、数据转换和集成、数据迁移和备份。
2023-04-28 12:03:54
3420
1
原创 ODS+DWD层详细介绍
DWD(Data WareHouse Detail)数据明细层,主要是将从业务数据库中同步过来的ODS层数据进行清洗和整合成相应的事实表。去除空值,脏数据,超过极限范围的数据,行式存储改为列存储,改压缩格式)、规范化、维度退化、脱敏等操作。去除空值,脏数据,超过极限范围的数据,行式存储改为列存储,改压缩格式)、规范化、维度退化、脱敏等操作。(3)创建分区表,防止后续的全表扫描,减少集群资源访问数仓的压力,一般按天存储在数仓中。数据脱敏:对身份证,手机号等敏感信息脱敏,加*,使用spark 脱敏。
2023-04-28 11:45:14
1306
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人