
数据仓库
文章平均质量分 88
goTsHgo
这个作者很懒,什么都没留下…
展开
-
实时数仓与离线数仓的全面对比
特性实时数仓离线数仓数据处理模式流式处理、增量更新批处理、定时更新延迟要求毫秒级到秒级数分钟到数小时技术栈Spark、Hive、Hadoop、关系型数据库资源消耗高资源消耗、高计算需求计算资源更集中,资源可预测运维难度高,实时监控、容错处理较低,周期性任务,运维相对简单使用场景实时监控、即时分析、实时推荐历史数据分析、业务报表、数据挖掘成本高(硬件、软件、运维复杂)低(资源消耗可控,成本可优化)原创 2025-01-03 11:34:37 · 904 阅读 · 0 评论 -
Hive on Spark 离线数据仓库中拉链表全流程使用
的离线数据仓库中装载拉链表(SCD,Slowly Changing Dimension)通常是为了解决维度表中的历史变化跟踪问题(主要是 SCD2 类型的拉链表)。如果维度表字段很多,最好对字段变化生成哈希值(MD5/SHA)比较,避免逐字段检查。使用高效的存储格式(如 ORC 或 Parquet),提升 I/O 性能。每次装载增量时,仅更新受影响的记录,减少对拉链表的全表扫描。对于首次装载,直接从原始维度表全量加载数据,设置初始的。为拉链表设计按时间分区(如。将增量数据与当前的拉链表。原创 2024-12-27 17:30:06 · 1222 阅读 · 0 评论 -
数据仓库需要全生命周期管理的详细原因
在 Hive on Spark 的数仓环境中,数据生命周期管理不仅是技术选择,更是保障业务成功的关键实践。通过合理的设计和执行,可实现高效、低成本和合规的数据管理。是保障数据仓库在整个使用过程中高效、安全、合规的关键。尤其在数据量巨大且分析需求复杂,全生命周期管理确保数据从创建到销毁都具备高质量、低成本和可追溯性。以下将从底层原理、Hive on Spark 的特点及相关代码实现逐步解释为什么需要数据的全生命周期管理,并结合实际场景说明原因。:从 MySQL 数据库采集数据到 Hive 的 ODS 层。原创 2024-12-03 15:11:20 · 1638 阅读 · 0 评论 -
数据仓库全生命周期管理
是将数据从初始采集到最终销毁的全过程管理,结合了 Hive 数据仓库的强大查询能力和 Spark 的分布式计算优势。以下从底层原理出发,结合源码解析每个阶段的实施方式,详细说明其操作原理和原因。原创 2024-12-03 15:10:51 · 1622 阅读 · 0 评论 -
数据仓库分层——数据明细层
离线数仓中的明细层是数据仓库体系的基石,存储最完整、最细粒度的业务数据。其主要目标是提供高质量、易用的基础数据,为上层分析和建模提供可靠支持,同时满足历史数据存储、回溯和灵活分析需求。在设计时需要平衡存储和查询效率,确保其稳定性和可扩展性。是数据分层模型中的基础层级之一,通常是整个数仓数据体系的。和基础,是进一步加工的起点。无直接业务价值的字段。数据的一致性和准确性。原创 2024-12-03 13:54:53 · 1194 阅读 · 0 评论 -
埋点采集的日志数据常见的格式简介
埋点采集的日志数据通常以结构化或半结构化的格式进行记录,以便于分析和处理。原创 2024-10-28 16:58:55 · 724 阅读 · 0 评论 -
数据仓库建设 : 主题域简介
在数据仓库建设中,主题域是数据模型的一个重要概念,它帮助构建逻辑清晰、层次分明的数据结构。主题域的设计基于企业的业务结构,将业务中的关键部分提炼出来,划分为若干个主题域。每个主题域对应一个特定的业务领域,便于组织、存储和分析业务数据。原创 2024-10-22 14:58:24 · 1736 阅读 · 0 评论 -
数据仓库中缓慢变化维的所有可用方案及对比
拉链表(SCD Type 2)是处理缓慢变化维最常用的方案,因为它能完整追踪历史记录并支持时间序列分析,但存储成本较高,且查询性能不如其他方案。SCD Type 1 和 Type 3适合于不关心或只需部分历史状态的场景,简单高效。Type 4 和审计表提供了更灵活的方式,但需要付出查询复杂度和维护成本。适用于复杂需求的数据仓库,结合了多种方案的优点,但也增加了实现和维护难度。选择哪种方案,需要根据业务需求、数据量、查询频率和性能要求进行权衡。如果需要在历史追踪和查询性能之间取得平衡,原创 2024-10-21 12:22:55 · 1339 阅读 · 0 评论