- 博客(49)
- 收藏
- 关注
原创 hive数仓分层
层级简称关键作用粒度说明建议存储周期原始层ODS保留原始业务数据明细15-30天/看磁盘明细层DWD清洗、标准化、去重明细1-2年汇总层DWS多维汇总宽表/指标表主题/部门/时间等长期应用层ADS报表、接口、直接应用维度表/标签/聚合按需维度层DIM辅助分析的维度字典维度唯一性长期。
2025-12-19 12:17:11
633
原创 20251202
DWD层不是原始业务库的简单镜像,而是通过维度建模,清洗、标准化、规范化业务数据,为后续分析场景打下坚实基础。数仓的其它层也有建模需求(但方式各有不同),建模能让数据使用、分析更高效、更便于管理和维护。
2025-12-12 17:07:12
144
原创 20251201
是数据仓库领域常用的一种数据组织方式,通常采用“事实表+维度表”的形式,将数据分为“度量值”和“分析维度”。电商业务中,订单数据是事实表,会员、商品、时间、店铺等信息作为维度表。订单事实表字段:订单编号、会员ID、商品ID、时间ID、订单金额、数量等。商品维度表字段:商品ID、商品名称、类别、品牌等。时间维度表字段:时间ID、日期、星期、月份等。它们不冲突,是不同需求下的两种实现方式,实际项目中往往结合使用。
2025-12-12 16:22:08
669
原创 Java复习文档
封装:通过访问控制,保障敏感数据安全,规范数据被操作的方式,外部无法随意访问或修改内部状态。(用private保护成员变量,通过public方法访问。继承:代码复用,实现结构化分类,方便扩展新类型。(Manager类通过extends继承Employee类的方法和属性。多态:让代码更通用,主程序可以只关注共性逻辑,具体差异自动处理,扩展性优秀。(父类引用指向子类对象,调用的是子类重写后的方法。
2025-12-12 14:46:14
208
原创 关于Linux、Hadoop、Hive、FineBI的介绍
关于Linux、Hadoop、Hive、FineBI的介绍可以在哔哩哔哩搜索up:黑马程序员,看他的《黑马程序员大数据Hadoop入门视频教程,适合零基础自学的大数据Hadoop教程》
2025-07-27 17:20:23
135
原创 关于DolphinScheduler的介绍
关于oozie的介绍可以在哔哩哔哩搜索up:黑马程序员,看他的《大数据技术之DolphinScheduler2.x》
2025-07-18 22:00:00
96
原创 数仓面试题
4.hive的row_number()、rank()和dense_rank()的区别以及具体使用。1.order by和sort by的区别。3.Hive内部表和外部表的区别。2.什么是分区和分桶。5.hive面试题1。6.hive面试题2。
2025-07-15 23:42:03
143
原创 oltp系统中的数据库的设计严格遵守第三范式,具体怎么理解呢
虽然3NF在OLTP中很重要,但有时会根据实际情况做适当调整(如适度冗余以提高性能),这需要在。订单表(订单ID, 客户ID, 客户名称, 客户地址, 产品ID, 数量, 单价):将数据分解为多个关联表,例如:订单系统中客户信息、产品信息、订单信息分别在三个表中存储。:通过外键约束维护关系完整性,避免更新异常(修改一处即可,不需要多处修改)问题:客户名称和地址依赖于客户ID,而不是直接依赖于订单ID。订单表(订单ID, 客户ID, 产品ID, 数量, 单价)客户表(客户ID, 客户名称, 客户地址)
2025-07-04 17:51:45
154
原创 手撕2_滑动窗口_无重复字符的最长子串
abcdb中,窗口正常运行到abcd时,下一个字符为b,b上一次出现在实在窗口里,所以需要把left设置为上一次出现的位置+1的位置,得到新的窗口为cdb,不然你不这样设置,窗口里有重复的字符(bcdb),不符合窗口的定义。若被判断的字符上一次出现的位置就在滑动窗口内,即 [ i,j ] 内, 则需要left改变位置,改变为该字符上次出现位置+1。我们通过窗口的左界和右界控制窗口。右界不用特意操作,因为它是+1,+1地涨上去,记得在循环里+1就好。左界:每当有一个字符曾经出现过,就需要判断左界。
2024-04-09 01:35:17
227
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅