- 博客(117)
- 资源 (15)
- 问答 (1)
- 收藏
- 关注
原创 【数据仓库】星型模型和维度建模什么区别?
星型模型是维度建模方法论中的一种具体表结构设计,而维度建模是指导这种设计的整体方法论。两者的关系类似于**“设计理念”与“具体蓝图”**——维度建模提供设计原则,而星型模型是落地时的物理表结构选择。描述业务过程的上下文属性(如时间、产品、客户),主键与事实表外键对应。记录业务过程的可量化指标(如销售额、订单数),包含外键关联维度表。
2025-03-26 08:15:00
608
原创 【数据仓库】湖仓一体黄金层与数仓维度建模的关系分析
湖仓一体架构通常分为原始层(Raw Layer)、中间层(Intermediate Layer)和黄金层(Gold Layer)。黄金层是经过清洗、整合和规范化后的高质量数据层,直接面向业务分析和应用场景,其核心目标是提供高性能查询和统一业务指标。
2025-03-26 08:00:00
271
原创 Doris 中大表与大表 Join 优化策略
最终方案需根据业务特征(如数据倾斜程度、查询并发度)进行针对性调优,并通过执行计划验证效果。:跨节点数据传输(Shuffle)导致网络带宽成为瓶颈,尤其大表 Join 时。:分桶键选择不当或数据倾斜导致节点负载不均,部分 BE 节点成为性能瓶颈。:大表 Join 时哈希表构建或中间结果缓存导致内存溢出(OOM)。在 Doris 中,大表与大表 Join 的性能瓶颈主要源于。:全列读取或复杂表达式计算导致 IO 和 CPU 开销大。大表 Join 优化需结合。
2025-03-25 19:50:38
911
原创 【数据仓库】湖仓一体的核心建模理论
湖仓一体(Lakehouse)是一种融合数据湖与数据仓库优势的新型架构,其建模理论在传统数据仓库与数据湖基础上进行了扩展和创新。
2025-03-25 08:15:00
999
原创 【数据仓库】数据仓库建模和数据湖建模常用建模理论
数据仓库建模和数据湖建模在目标、方法和适用场景上有显著差异,以下是它们的核心区别及常用建模理论:维度建模(Kimball模型)范式建模(Inmon模型)Data VaultMedallion架构(青铜/白银/黄金层)基于表格式的建模(Delta Lake/Iceberg/Hudi)数据网格(Data Mesh)建模时机:数据治理:适用场景:技术演进:
2025-03-25 08:00:00
389
原创 【数据仓库】数仓维度建模中的事实表核心概念与实践案例
设计核心明确粒度:确保事实表记录不可再分的最小业务单元。简化事实:优先使用可加事实,避免存储冗余计算字段。工具适配传统数仓(如 Oracle):通过物化视图优化聚合查询。大数据平台(如 Hive):利用分区和列式存储(ORC/Parquet)提升性能。典型陷阱粒度过粗:无法支持明细分析。过度冗余:存储可计算的派生字段(如同时存单价、数量、总价)。通过合理设计事实表,企业可构建高效、灵活的数据仓库,支撑从实时监控到长期趋势分析的全场景需求。
2025-03-24 08:15:00
1336
原创 【数据仓库】渐变维度(SCD)类型选择与应用指南:从理论到实践
是管理维度属性随时间变化的核心技术。不同的SCD类型适用于不同场景,错误选择可能导致历史分析失真或资源浪费。本文通过系统性框架与实战案例,解析如何科学选择SCD类型。不同的SCD类型适用于不同场景,错误选择可能导致历史分析失真或资源浪费。本文通过系统性框架与实战案例,解析如何科学选择SCD类型。通过科学选择SCD类型,企业可在历史数据准确性与系统性能之间找到最佳平衡,为数据驱动决策提供坚实基石。通过科学选择SCD类型,我们可在历史数据准确性与系统性能之间找到最佳平衡,为数据驱动决策提供坚实基石。
2025-03-24 08:00:00
1283
原创 Spark中UDF、UDAF、UDTF的区别
合理选择函数类型,结合性能优化和资源管理,可以高效解决复杂数据处理需求。在 Spark 中的核心区别及各自的注意事项。
2025-03-22 08:00:00
628
原创 Hive 实际应用场景及对应SQL示例
*批处理分析:**日志清洗、用户行为统计;**数据仓库构建:**ETL流程、结构化存储;商业智能(BI):多维度聚合、报表生成。其SQL设计需重点关注窗口函数、条件聚合和数据转换操作,并结合分区/分桶优化性能。
2025-03-21 07:45:00
566
原创 Hive高频SQL及典型应用场景总结
高频操作:窗口函数、行列转换、条件聚合典型场景:日志分析、用户分层、报表生成优化重点:分区/分桶设计、避免全表扫描、合理使用存储格式(ORC/Parquet)
2025-03-20 22:14:00
445
原创 Java大对象与内存泄漏深度解析
二、内存泄漏(Memory Leak)排查2.1 高频泄漏场景类型特征检测工具静态集合泄漏长期持有对象MAT Dominator Tree未关闭资源/未释放JFR监控堆外内存监听器未注销集合只增不减Arthas 追踪2.2 动态类生成泄漏场景:CGLIB代理类堆积现象: Metaspace持续增长 → OO
2025-03-20 07:45:00
287
原创 Java内存模型与调优深度指南(2025版)
1、编码规范避免在循环内创建BigDecimal/SimpleDateFormat及时关闭资源:try-with-resources替代finally2、监控体系关键指标:堆使用率、Metaspace使用量、GC停顿时间告警阈值:Full GC次数>3次/小时3、压测验证使用JMeter模拟峰值流量,观察GC日志对比优化前后吞吐量(TPS)与P99延迟。
2025-03-19 07:45:00
372
原创 Java 内存管理、垃圾回收及优化的关键版本演变
关键转折点版本:JDK 8(元空间)、JDK 9(G1 默认化)、JDK 11(ZGC)、JDK 15(Shenandoah)。优化方向:从高吞吐量(Parallel GC)向低延迟(ZGC/Shenandoah)演进,同时简化配置并增强诊断能力。
2025-03-18 07:45:00
390
原创 Java8与jdk21内存模型的对比
内存管理:最新版本优化了元空间自动扩容和堆分区灵活性,更适合云原生环境。垃圾回收:从 Parallel 到 ZGC/Shenandoah 的演进,显著降低停顿时间并支持超大堆。优化趋势:简化配置、增强诊断工具、适配多样化场景(如实时系统和大数据应用)。
2025-03-18 07:30:00
952
原创 第七篇:数据治理实践工具与资源
企业可以根据自身特点和需求,开发自定义的数据治理成熟度评估工具。确定评估维度:根据企业的数据治理重点和目标,确定评估的关键维度。设计评估指标:针对每个维度,设计具体的评估指标和标准。制定评分标准:为每个指标制定明确的评分标准和成熟度级别描述。开发评估工具:开发评估问卷、评分表和报告模板等工具。测试和优化:通过试点评估,测试和优化评估工具的有效性和可用性。实施和应用:在企业内部实施评估,分析结果并制定改进计划。持续更新:根据企业数据治理的发展和变化,持续更新和优化评估工具。
2025-03-17 07:45:00
1160
原创 企业数据治理体系构建与实践指南
- **为什么需要数据治理** - 数字化转型中的企业数据困境(效率、合规、创新瓶颈) - 数据资产化的战略意义:从成本中心到利润引擎
2025-03-17 07:30:00
600
原创 第六篇:数据治理未来趋势与创新方向
CDMP认证是基于DAMA-DMBOK(Data Management Body of Knowledge)知识体系的专业认证,旨在评估和认可数据管理专业人员的知识和能力。国际认可:CDMP是全球认可的数据管理专业认证,在国际上具有广泛的影响力。全面覆盖:基于DAMA-DMBOK知识体系,覆盖数据管理的各个领域。分级认证:提供不同级别的认证,适合不同经验和能力水平的从业者。持续更新:随着数据管理领域的发展,认证内容和要求也在不断更新。
2025-03-16 08:45:00
720
原创 第五篇:数据治理系统建设全景图
Apache Atlas最初由Hortonworks开发,于2015年7月开始在Apache孵化,2018年6月发布1.0版本。它是一个为Hadoop生态系统设计的元数据管理和数据治理平台,提供了开放的元数据管理和治理能力,以满足企业对数据资产管理的需求。“Apache Atlas是首批集成数据治理功能的开源数据目录之一。然而,这个项目的开发周期有点慢,更不用说这个项目是专门为Hadoop生态系统构建的。它可以很好地与任何与Hive集成的东西配合使用。元数据类型系统。
2025-03-16 08:30:00
1561
原创 第四篇:数据治理成效评估与标杆实践
数据治理的成效评估需要建立量化的指标体系,包括合规性指标、质量指标、效率指标和价值指标。不同行业在数据治理方面有着各自的最佳实践,这些实践可以为其他企业提供有益的参考。在实施数据治理过程中,企业应避免过度依赖技术、忽视业务参与等常见误区。
2025-03-15 08:00:00
1442
原创 第三篇:数据治理实施路线图设计
在制定数据治理目标时,应遵循SMART原则,即目标应该是具体的(Specific)、可衡量的(Measurable)、可实现的(Achievable)、相关的(Relevant)和有时限的(Time-bound)。“行动计划的制定要与企业实际相结合,可执行、可量化、可评估。这一观点强调了目标设定的实用性和可行性,与SMART原则相一致。具体的(Specific)目标应该明确具体,清晰表达要达到的结果,避免模糊和歧义。可衡量的(Measurable)
2025-03-15 07:30:00
619
原创 第二篇:中国企业数据治理现状与典型挑战
随着数字经济的快速发展,数据已成为企业的核心战略资产。然而,中国企业在数据治理实践中仍面临诸多挑战。本文将深入分析中国企业数据治理的现状,对比金融、医疗、制造业等不同行业的数据治理成熟度,梳理相关政策法规驱动因素,剖析企业普遍面临的数据治理痛点,并通过典型案例深入探讨数据治理项目失败的根本原因,为企业构建有效的数据治理体系提供参考。
2025-03-14 07:45:00
921
原创 第一篇:数据治理的核心价值与基础框架
数据治理作为一种战略性方法,旨在确保数据的质量、安全性和价值最大化,正逐渐成为企业数字化转型的关键环节。本文将深入探讨数据治理的核心价值、与数据管理的区别、主流框架以及行业实践,为企业构建有效的数据治理体系提供指导。
2025-03-14 07:30:00
1104
原创 数字化转型之数据治理的核心价值与基础框架
战略定位:数据治理是数字化转型的基础工程,需提升至C-level战略高度。技术融合:AI与区块链技术推动治理自动化与可信化,如智能数据清洗与分布式账本应用。行业适配:金融业侧重合规审计,制造业关注IoT数据融合,医疗行业聚焦隐私保护。政策驱动:2025年数据要素市场化政策(如数据资产入表)加速数据价值释放。
2025-03-13 15:09:46
718
原创 Hive高级SQL技巧及实际应用场景
如果你经常需要计算中位数,可以编写一个用户定义函数(UDF)来简化这个过程。# 注册UDF到HiveSELECTJOIN (SELECT。
2025-03-13 13:40:46
862
原创 机器学习背后的数学芝士
在当今快速发展的科技领域,机器学习作为人工智能的核心技术之一,正在深刻地改变我们的生活和工作方式。本文将了解一下机器学习背后的关键数学芝士。
2025-03-12 08:00:00
278
原创 Flink之Q&A在极端乱序下,Flink还能处理吗?
Flink通过水印策略优化、状态存储扩展及旁路输出等机制配合可应对大部分极端乱序场景。但对于延迟无上限或要求绝对数据完整性的场景,需结合外部存储和离线计算实现最终一致性。实际应用中需根据业务容忍度在延迟、吞吐量、计算成本之间进行权衡。
2025-03-12 07:45:00
644
原创 Flink之水印(watermark)的补充理解
水印(Watermark):用于==事件时间==处理,标记数据流的进度,解决乱序和延迟问题,触发窗口计算
2025-03-11 22:25:12
1047
原创 Impala查询引擎一篇应该够用额
impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快10到100倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sql工具
2025-03-11 08:00:00
1712
原创 hbase-04 协处理器、热点、数据备份、二级索引
为了HBase的数据查询更高效、适应更多的场景,诸如使用非rowkey字段检索也能做到秒级响应,或者支持各个字段进行模糊查询和多字段组合查询等, 因此需要在HBase上面构建二级索引, 以满足现实中更复杂多样的业务需求。hbase的二级索引其本质就是建立HBase表中列与行键之间的映射关系。
2025-03-10 08:00:00
947
原创 hbase-03 实践、整合hive
HBase表中的数据最终都是存储在HDFS上,HBase天生的支持MR的操作,我们可以通过MR直接处理HBase表中的数据,并且MR可以将处理后的结果直接存储到HBase表中。Hive提供了与HBase的集成,使得能够在HBase表上使用hive sql 语句进行查询、插入操作以及进行Join和Union等复杂查询,同时也可以将hive表中的数据映射到Hbase中
2025-03-10 07:45:00
1955
原创 hbase-02 存储原理、读写流程、region拆分合并、预分区
一个HRegionServer会负责管理很多个region一个**==region==**包含很多个==store==一个**==列族==就划分成一个==store==**如果一个表中只有1个列族,那么每一个region中只有一个store如果一个表中有N个列族,那么每一个region中有N个store==一个store==里面只有==一个memstore==memstore是一块内存区域,写入的数据会先写入memstore进行缓冲,然后再把数据刷到磁盘一个store里面有很多个**==Sto
2025-03-09 09:15:00
749
原创 hbase-01 架构、数据模型、shell命令、javaAPI、过滤器
HBase基于Google的BigTable论文,是建立的==HDFS==之上,提供**高可靠性**、**高性能**、**列存储**、**可伸缩**、**实时读写**的分布式数据库系统。* 在需要==实时读写随机访问==超大规模数据集时,可以使用HBase。
2025-03-09 09:00:00
837
原创 Flink之SQL join
Flink sql 支持对动态表进行复杂且灵活的join操作。考虑到查询可能需要的各种语义,flink提供了多种不同类型的join。默认情况下,join的顺序没有做过优化。表是按照他们在from子句中指定的顺序进行join的。你可以通过把更新频率最低的表放在最前面,把更新频率最高的表放在最后面,来调整连接查询的性能。确保指定表的顺序不会产生交叉连接(笛卡儿积),flink不支持这样的操作,会导致查询失败。
2025-03-08 19:28:28
1026
原创 hbase-06 Phoenix安装部署&构建二级索引
对于HBase而言,如果想精确地定位到某行记录,唯一的办法是通过rowkey来查询。如果不通过rowkey来查找数据,就必须逐行地比较每一列的值,即全表扫瞄。对于较大的表,全表扫描的代价是不可接受的。
2025-03-08 18:50:40
620
原创 hbase-05 namespace、数据的确界&TTL
在HBase中,namespace命名空间指对一组表的逻辑分组,类似RDBMS中的database,方便对表在业务上划分。在HBase当中,我们可以为数据设置上界和下界,其实就是定义数据的历史版本保留多少个,通过自定义历史版本保存的数量,我们可以实现数据多个历史版本的数据查询在实际工作当中经常会遇到有些数据过了一段时间我们可能就不需要了,那么这时候我们可以使用定时任务去定时的删除这些数据或者我们也可以使用Hbase的TTL(Time To Live)功能,让我们的数据定期的会进行清除
2025-03-08 18:27:12
634
原创 Flink之Barrier对齐会影响执行效率,怎么跳过Barrier对齐,跳过后还能保证Exactly-Once语义吗?
特性Barrier对齐检查点非Barrier对齐检查点执行效率可能因等待Barrier产生延迟无等待,吞吐量更高检查点大小较小较大(含未处理数据)Exactly-Once保证支持支持适用场景常规数据流高吞吐/数据倾斜/反压严重通过合理选择检查点模式,可在效率与资源消耗之间取得平衡。
2025-03-08 15:04:07
520
原创 Sqoop数据迁移工具一篇应该够用额
并不需要将表中的数据全部导入到hive或者hdfs当中去,肯定会出现重复的数据的状况,所以我们一般都是选用一些字段进行增量的导入,为了支持增量的导入,sqoop也给我们考虑到了这种情况并且支持增量的导入数据。在MySQL数据库服务器中创建一个数据库userdb, 然后在创建一张表 emp,添加点测试数据到表中。从MySQL数据库服务器中的userdb数据库下的emp表导入HDFS上。sqoop在发展中的过程中演进出来了两种不同的架构.增量导入是仅导入新添加的表中的行的技术。版本号为1.4.x0。
2025-03-08 11:22:37
672
DeepSeek从入门到精通(清华大学) 清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室
2025-02-20
flink1.14.0 kudu1.10.0 connector
2021-12-07
cdh6.3.2+cm6.3.1.zip下载
2021-07-07
excel截图jar.zip
2020-05-15
netty-all-5.0.0.Alpha2
2019-04-17
邮件发送工具
2018-09-05
SQL Server jdbc 驱动下载 -- sqljdbc4
2017-12-26
oracle jdbc driver --ojdbc
2017-12-26
PLSQL_v1104_x64+注册码+汉化工具
2017-12-19
struts2 Demo
2017-04-25
jspsmartupload支持中文下载
2016-07-17
简易封装百度地图API
2014-10-11
Intel Atom x86模拟器的安装与使用 详解
2014-10-11
Base64批量加密工具
2014-08-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人