
数据仓库
文章平均质量分 89
数据仓库(Data Warehouse)是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
000X000
愿意放弃自由来换取保障的人,其最终既得不到自由,也得不到保障
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Flink 反压问题深度剖析与解决方案
Flink 反压问题深度剖析与解决方案原创 2025-06-23 11:47:39 · 772 阅读 · 0 评论 -
详解SparkSQL并行执行JOB过程
SparkSQL中并行提交多个Job的实现机制。首先分析了Spark调度框架支持多Job并行的原理,指出通过多线程提交Job可实现资源充分利用。接着介绍了Spark ThriftServer作为SQL提交入口的运行机制。重点阐述了在开启/关闭自适应查询时并行Job生成的差异:关闭自适应时由TakeOrderAndProjectExec触发主Job;开启自适应时AdaptiveSparkPlanExec会额外启动广播和MapStage线程提交子Job。原创 2025-06-23 11:42:20 · 733 阅读 · 0 评论 -
Fluss构建流式湖仓一体
Fluss构建流式湖仓一体原创 2025-06-23 11:38:40 · 1136 阅读 · 0 评论 -
全流程操作指南数据资产入表
全流程操作指南数据资产入表原创 2024-12-16 14:48:04 · 2020 阅读 · 0 评论 -
数据质量核心维度与检查项
数据质量核心维度与检查项原创 2024-11-25 09:31:21 · 1061 阅读 · 0 评论 -
数据仓库架构演进
数据仓库架构演进原创 2024-11-25 09:27:03 · 1150 阅读 · 0 评论 -
数据治理平台建设方案
数据治理平台建设方案原创 2024-11-25 09:21:58 · 373 阅读 · 0 评论 -
Apache Doris应用场景
Apache Doris应用场景原创 2024-11-25 08:56:59 · 1113 阅读 · 0 评论 -
基于Hive数据仓库的标签画像实战
基于Hive数据仓库的标签画像实战原创 2024-10-22 14:44:23 · 1098 阅读 · 0 评论 -
2024企业数据价值实现
2024企业数据价值实现原创 2024-10-22 14:19:25 · 1163 阅读 · 0 评论 -
中台平台架构设计方案
中台平台架构设计方案原创 2024-10-22 11:47:24 · 2146 阅读 · 0 评论 -
大数据之Spark submit参数
大数据之Spark submit参数原创 2024-09-12 11:21:48 · 865 阅读 · 0 评论 -
大数据之Spark Executor资源分配
大数据之Spark Executor资源分配原创 2024-09-12 11:16:00 · 704 阅读 · 0 评论 -
大数据之Spark 资源调度
大数据之Spark 资源调度原创 2024-09-12 10:55:49 · 866 阅读 · 0 评论 -
大数据之Spark RDD 持久化
大数据之Spark RDD 持久化原创 2024-09-12 10:49:24 · 1114 阅读 · 0 评论 -
大数据之Spark 进程模型与分布式计算
大数据之Spark 进程模型与分布式计算原创 2024-09-12 10:38:57 · 973 阅读 · 0 评论 -
大数据之Spark 数据依赖图DAG
大数据之Spark 数据依赖图DAG原创 2024-09-12 10:30:42 · 1102 阅读 · 0 评论 -
大数据之Spark RDD 编程模型
大数据之Spark RDD 编程模型原创 2024-09-12 10:20:49 · 1384 阅读 · 0 评论 -
大数据之Shuffle详解
大数据之Shuffle详解原创 2024-09-12 10:05:59 · 2439 阅读 · 0 评论 -
数据资产管理-血缘关系
数据资产管理-血缘关系原创 2024-09-12 09:50:08 · 1396 阅读 · 0 评论 -
数据开发流程规范及数据监控
数据开发流程规范及数据监控原创 2024-08-20 17:15:47 · 1494 阅读 · 0 评论 -
数据安全技术 数据分类分级规则
GB/T 43697-2024《数据安全技术 数据分类分级规则》原创 2024-08-20 17:04:12 · 1077 阅读 · 0 评论 -
驾驶舱数据指标体系和数据大屏设计V2.0
驾驶舱数据指标体系和数据大屏设计V2.0原创 2024-08-20 16:28:33 · 1815 阅读 · 0 评论 -
标签画像-基于Hive数据仓库实战
标签画像-基于Hive数据仓库实战原创 2024-08-20 16:18:04 · 838 阅读 · 0 评论 -
数据仓库实战:详解维度建模事实表
数据仓库实战:详解维度建模事实表原创 2024-08-20 16:16:18 · 1052 阅读 · 0 评论 -
2024-元数据数据治理
数据治理-元数据原创 2024-08-20 15:48:21 · 1418 阅读 · 0 评论 -
Spark 解析嵌套的 JSON 文件
Spark 解析嵌套的 JSON 文件原创 2024-07-25 10:54:12 · 950 阅读 · 0 评论 -
Spark核心知识要点(八)Shuffle配置调优
Spark核心知识要点(八)Shuffle配置调优原创 2024-07-25 10:44:22 · 1577 阅读 · 0 评论 -
Spark核心知识要点(七)程序开发调优
Spark核心知识要点(六)程序开发调优原创 2024-07-25 10:43:40 · 667 阅读 · 0 评论 -
Spark核心知识要点(六)资源配置调优
Spark核心知识要点(六)资源配置调优原创 2024-07-25 10:42:32 · 1300 阅读 · 0 评论 -
Spark核心知识要点(五)数据倾斜解决方案
Spark核心知识要点(五)数据倾斜解决方案原创 2024-07-25 10:41:03 · 799 阅读 · 0 评论 -
Spark核心知识要点(四)
Spark核心知识要点(四)原创 2024-07-25 10:39:47 · 631 阅读 · 0 评论 -
Spark核心知识要点(三)
Spark核心知识要点(三)原创 2024-07-25 10:39:07 · 1183 阅读 · 0 评论 -
Spark核心知识要点(二)
Spark核心知识要点(二)原创 2024-07-25 10:38:08 · 874 阅读 · 0 评论 -
Spark核心知识要点(一)
Spark核心知识要点(一)原创 2024-07-25 10:37:28 · 998 阅读 · 0 评论 -
2024构建数据安全体系
2024构建数据安全体系原创 2024-07-17 14:59:05 · 1454 阅读 · 0 评论 -
数据资产管理
数据资产管理转载 2024-07-11 10:30:00 · 105 阅读 · 0 评论 -
全数仓体系建设规范V4.0
全数仓体系建设规范V4.0原创 2024-06-06 09:21:21 · 825 阅读 · 0 评论 -
数据治理规范要求
数据治理方法原创 2024-06-06 09:18:22 · 1944 阅读 · 0 评论 -
详解大厂实时数仓建设V4.0
1. 近实时的数据接入前面介绍了 Iceberg 既支持读写分离,又支持并发读、增量读、小文件合并,还可以支持秒级到分钟级的延迟,基于这些优势我们尝试采用 Iceberg 这些功能来构建基于 Flink 的实时全链路批流一体化的实时数仓架构。如下图所示,Iceberg 每次的 commit 操作,都是对数据的可见性的改变,比如说让数据从不可见变成可见,在这个过程中,就可以实现近实时的数据记录。2. 实时数仓 - 数据湖分析系统。原创 2024-06-06 09:14:35 · 1308 阅读 · 0 评论