数据仓库
文章平均质量分 87
RunningShare
微信公众号为:跑享网,博主有近多年工作经验,近8年大数据开发、运维和架构设计经验,将与您探讨Flink/Spark、StarRocks/Doris、Clickhouse、Hadoop、Kudu、Hive、Impala等大数据组件的架构设计原理,以及大数据、Java/Scala的面试题以及数据治理、大数据平台从0到1的实战经验等,也会与大家分享一些有正能量的名人故事,也包括个人成长、职业规划等的一些感悟,有探讨或感兴趣的话题,欢迎留言或私聊哈,如果文章对您有所启发,麻烦帮忙点赞+收藏+转发哈,若有大佬的打赏,更是感激不尽,小编将继续努力,打造更好的作品,与您一起进步~~
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
猛踩Hive动态分区的坑?这份调优秘籍让你和大数据面试官聊到嗨!
Hive动态分区调优指南:避坑与优化 本文深入剖析了Hive动态分区使用中的两大核心风险:分区爆炸和小文件问题。针对分区爆炸,提出了参数调优四件套(max.dynamic.partitions等)和分区键设计原则;针对小文件问题,给出了引擎选择、文件合并和存储格式优化等解决方案。文章还提供了完整的最佳实践示例,强调预防为主、治理为辅的管理思路。这些经验不仅能解决实际工作中的难题,更能帮助开发者在技术面试中展现专业能力。原创 2025-09-23 00:04:13 · 848 阅读 · 0 评论 -
大数据拉链表异常重跑完全指南:从单日修复到全量重跑
大数据拉链表异常重跑处理指南摘要 本文详细介绍了大数据环境中拉链表数据异常时的重跑策略。主要内容包括: 重跑原因:数据源质量问题、ETL处理错误、系统故障、业务变更等导致的数据异常 准备工作: 数据备份策略(创建备份表或版本快照) 数据质量检查脚本(验证连续性、完整性) 单日重跑方案: 删除异常数据 重新计算当日数据(处理变化数据、新增记录、未变化数据和历史记录) 多日连续重跑: 按日期顺序逐日处理 确保数据依赖和连续性 包含数据质量验证步骤 文中提供了关键SQL代码示例,涵盖备份创建、质量检查、单日重跑逻原创 2025-09-22 07:45:00 · 1771 阅读 · 0 评论 -
大数据拉链表全解析:滴滴、腾讯都在用的数据时态治理方案
大数据拉链表是滴滴、腾讯等企业广泛采用的数据时态治理方案,通过生效/失效日期字段高效记录数据历史变化。文章详细解析了拉链表的实施步骤:设计表结构、初始化加载、增量更新和查询使用,并对比了其优缺点。拉链表在存储空间优化(节省90%以上)和历史数据完整性方面表现突出,适用于用户画像、订单跟踪等需要历史追溯的场景。同时提供了Doris实现方案和性能优化技巧,帮助开发者在数据治理中平衡存储效率与查询性能。原创 2025-09-21 07:45:00 · 1040 阅读 · 0 评论 -
星型模型与雪花模型的比较分析
一个中心事实表,周围环绕多个维度表,维度表不与其它维度表关联:销售事实表直接关联产品、时间、客户、商店等维度表。原创 2025-08-06 11:57:26 · 205 阅读 · 0 评论 -
Doris SQL 原理解析
本文主要介绍了Doris SQL解析的原理。重点讲述了生成单机逻辑计划,生成分布式逻辑计划,生成分布式物理计划的过程。对应于代码实现是Analyze,SinglePlan,DistributedPlan,Schedule四个部分。Analyze负责对AST进行前期的一些处理,SinglePlan根据AST进行优化生成单机查询计划,DistributedPlan将单机的查询计划拆成分布式的查询计划,Schedule阶段负责决定查询计划下发到哪些机器上执行。由于SQL类型有很多,本文侧重介绍查询SQL的解转载 2023-03-02 23:42:48 · 1216 阅读 · 1 评论 -
简单了解SQL与T-SQL的区别以及T-SQL语言的组成和语句结构
一.SQL Server和T-SQL的区别SQL Server是结构化查询语言,是目前关系型数据库管理系统中使用最广泛的查询语言T-SQL即 Transact-SQL,是标准SQL语言的扩展,是SQL Server的核心,在SQL的的基础上添加了变量,运算符,函数和流程控制等新内容,总之SQL Server是几乎所有关系型数据库都支持的语言,而T-SQL是Microsoft SQL Server支持的语言二.T-SQL语言的组成数据定义语言(DDL,Data Definition La.转载 2020-07-03 14:54:59 · 1388 阅读 · 0 评论 -
Hive中使用 with as 优化SQL
背景:当我们书写一些结构相对复杂的SQL语句时,可能某个子查询在多个层级多个地方存在重复使用的情况,这个时候我们可以使用 with as 语句将其独立出来,极大提高SQL可读性,简化SQL~注:目前 oracle、sql server、hive等均支持 with as 用法,但 mysql并不支持!2019-05-31更新:MySQL8.0大量更新优化,支持Common table expressions,即支持 with 语法!一、介绍with as 也叫做子查询部分,首先定义一个sql.转载 2020-06-02 17:20:46 · 900 阅读 · 0 评论 -
数据仓库ODS、DW和DM概念区分
今天看了一些专业的解释,还是对ODS、DW和DM认识不深刻,下班后花时间分别查了查它们的概念。ODS——操作性数据(Operational Data Store)DW——数据仓库(Data Warehouse)DM——数据集市(Data Mart)1.数据中心整体架构数据中心整体架构数据仓库的整理架构,各个系统的元数据通过ETL同步到操作性数据仓库ODS中,对ODS数据进行面向主题域建模形成DW(数据仓库),DM是针对某一个业务领域建立模型,具体用户(决策层)查看DM生成的.转载 2020-06-02 14:49:35 · 737 阅读 · 0 评论 -
数据仓库基础知识
数据仓库数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。——数据仓库之父--Bill Inmon数据仓库基本特性面向主题性面向主题性表示了数据仓库中数据组织的基本原则,数据仓库中的所有数据都是围绕着某一主题组织的。确定主题以后,需转载 2020-05-27 14:37:53 · 1267 阅读 · 0 评论
分享