自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

我的博客

没有描述

  • 博客(117)
  • 资源 (15)
  • 问答 (1)
  • 收藏
  • 关注

原创 【数据仓库】星型模型和维度建模什么区别?

星型模型是维度建模方法论中的一种具体表结构设计,而维度建模是指导这种设计的整体方法论。两者的关系类似于**“设计理念”与“具体蓝图”**——维度建模提供设计原则,而星型模型是落地时的物理表结构选择。描述业务过程的上下文属性(如时间、产品、客户),主键与事实表外键对应。记录业务过程的可量化指标(如销售额、订单数),包含外键关联维度表。

2025-03-26 08:15:00 608

原创 【数据仓库】湖仓一体黄金层与数仓维度建模的关系分析

湖仓一体架构通常分为原始层(Raw Layer)、中间层(Intermediate Layer)和黄金层(Gold Layer)‌。黄金层是经过清洗、整合和规范化后的高质量数据层,直接面向业务分析和应用场景,其核心目标是提供高性能查询和统一业务指标‌。

2025-03-26 08:00:00 271

原创 Doris 中大表与大表 Join 优化策略

最终方案需根据业务特征(如数据倾斜程度、查询并发度)进行针对性调优,并通过执行计划验证效果。:跨节点数据传输(Shuffle)导致网络带宽成为瓶颈,尤其大表 Join 时。:分桶键选择不当或数据倾斜导致节点负载不均,部分 BE 节点成为性能瓶颈。:大表 Join 时哈希表构建或中间结果缓存导致内存溢出(OOM)。在 Doris 中,大表与大表 Join 的性能瓶颈主要源于。:全列读取或复杂表达式计算导致 IO 和 CPU 开销大。大表 Join 优化需结合。

2025-03-25 19:50:38 911

原创 【数据仓库】湖仓一体的核心建模理论

湖仓一体(Lakehouse)是一种融合数据湖与数据仓库优势的新型架构,其建模理论在传统数据仓库与数据湖基础上进行了扩展和创新。

2025-03-25 08:15:00 999

原创 【数据仓库】数据仓库建模和数据湖建模常用建模理论

数据仓库建模和数据湖建模在目标、方法和适用场景上有显著差异,以下是它们的核心区别及常用建模理论:维度建模(Kimball模型)范式建模(Inmon模型)Data VaultMedallion架构(青铜/白银/黄金层)基于表格式的建模(Delta Lake/Iceberg/Hudi)数据网格(Data Mesh)建模时机:数据治理:适用场景:技术演进:

2025-03-25 08:00:00 389

原创 【数据仓库】数仓维度建模中的事实表核心概念与实践案例

设计核心明确粒度:确保事实表记录不可再分的最小业务单元。简化事实:优先使用可加事实,避免存储冗余计算字段。工具适配传统数仓(如 Oracle):通过物化视图优化聚合查询。大数据平台(如 Hive):利用分区和列式存储(ORC/Parquet)提升性能。典型陷阱粒度过粗:无法支持明细分析。过度冗余:存储可计算的派生字段(如同时存单价、数量、总价)。通过合理设计事实表,企业可构建高效、灵活的数据仓库,支撑从实时监控到长期趋势分析的全场景需求。

2025-03-24 08:15:00 1336

原创 【数据仓库】渐变维度(SCD)类型选择与应用指南:从理论到实践

是管理维度属性随时间变化的核心技术。不同的SCD类型适用于不同场景,错误选择可能导致历史分析失真或资源浪费。本文通过系统性框架与实战案例,解析如何科学选择SCD类型。不同的SCD类型适用于不同场景,错误选择可能导致历史分析失真或资源浪费。本文通过系统性框架与实战案例,解析如何科学选择SCD类型。通过科学选择SCD类型,企业可在历史数据准确性与系统性能之间找到最佳平衡,为数据驱动决策提供坚实基石。通过科学选择SCD类型,我们可在历史数据准确性与系统性能之间找到最佳平衡,为数据驱动决策提供坚实基石。

2025-03-24 08:00:00 1283

原创 Spark中UDF、UDAF、UDTF的区别

合理选择函数类型,结合性能优化和资源管理,可以高效解决复杂数据处理需求。在 Spark 中的核心区别及各自的注意事项。

2025-03-22 08:00:00 628

原创 Spark UDF 类型、实现与最佳实践指南

【代码】Spark UDF 类型、实现与最佳实践指南。

2025-03-21 08:00:00 401

原创 Hive 实际应用场景及对应SQL示例

*批处理分析‌:**日志清洗、用户行为统计‌;**数据仓库构建‌:**ETL流程、结构化存储‌;商业智能‌(BI):多维度聚合、报表生成‌。其SQL设计需重点关注‌窗口函数‌、‌条件聚合‌和‌数据转换操作‌,并结合分区/分桶优化性能‌。

2025-03-21 07:45:00 566

原创 Hive高频SQL及典型应用场景总结

高频操作‌:窗口函数、行列转换、条件聚合典型场景‌:日志分析、用户分层、报表生成优化重点‌:分区/分桶设计、避免全表扫描、合理使用存储格式(ORC/Parquet)

2025-03-20 22:14:00 445

原创 Java大对象与内存泄漏深度解析

二、内存泄漏(Memory Leak)排查2.1 高频泄漏场景类型特征检测工具静态集合泄漏‌长期持有对象MAT Dominator Tree未关闭资源‌/未释放JFR监控堆外内存监听器未注销‌集合只增不减Arthas 追踪2.2 动态类生成泄漏场景:CGLIB代理类堆积现象‌: Metaspace持续增长 → OO

2025-03-20 07:45:00 287

原创 Java内存模型与调优深度指南(2025版)

1、编码规范‌避免在循环内创建BigDecimal/SimpleDateFormat‌及时关闭资源:try-with-resources替代finally‌2、监控体系‌关键指标:堆使用率、Metaspace使用量、GC停顿时间‌告警阈值:Full GC次数>3次/小时‌3、压测验证‌使用JMeter模拟峰值流量,观察GC日志‌对比优化前后吞吐量(TPS)与P99延迟‌。

2025-03-19 07:45:00 372

原创 Java内存模型版本对比(JDK 8 → JDK 21)

【代码】Java内存模型版本对比(JDK 8 → JDK 21)

2025-03-19 07:30:00 371

原创 Java 内存管理、垃圾回收及优化的关键版本演变

关键转折点版本‌:JDK 8(元空间)、JDK 9(G1 默认化)、JDK 11(ZGC)、JDK 15(Shenandoah)‌。优化方向‌:从高吞吐量(Parallel GC)向低延迟(ZGC/Shenandoah)演进,同时简化配置并增强诊断能力。

2025-03-18 07:45:00 390

原创 Java8与jdk21内存模型的对比

内存管理‌:最新版本优化了元空间自动扩容和堆分区灵活性,更适合云原生环境‌。垃圾回收‌:从 Parallel 到 ZGC/Shenandoah 的演进,显著降低停顿时间并支持超大堆‌。优化趋势‌:简化配置、增强诊断工具、适配多样化场景(如实时系统和大数据应用)‌。

2025-03-18 07:30:00 952

原创 第八篇:数据治理成熟度自测

深化数据战略与业务的融合;优化数据治理组织架构,提高决策效率;建立数据治理的绩效评估机制。

2025-03-17 08:00:00 343

原创 第七篇:数据治理实践工具与资源

企业可以根据自身特点和需求,开发自定义的数据治理成熟度评估工具。确定评估维度:根据企业的数据治理重点和目标,确定评估的关键维度。设计评估指标:针对每个维度,设计具体的评估指标和标准。制定评分标准:为每个指标制定明确的评分标准和成熟度级别描述。开发评估工具:开发评估问卷、评分表和报告模板等工具。测试和优化:通过试点评估,测试和优化评估工具的有效性和可用性。实施和应用:在企业内部实施评估,分析结果并制定改进计划。持续更新:根据企业数据治理的发展和变化,持续更新和优化评估工具。

2025-03-17 07:45:00 1160

原创 企业数据治理体系构建与实践指南

- **为什么需要数据治理** - 数字化转型中的企业数据困境(效率、合规、创新瓶颈) - 数据资产化的战略意义:从成本中心到利润引擎

2025-03-17 07:30:00 600

原创 第六篇:数据治理未来趋势与创新方向

CDMP认证是基于DAMA-DMBOK(Data Management Body of Knowledge)知识体系的专业认证,旨在评估和认可数据管理专业人员的知识和能力。国际认可:CDMP是全球认可的数据管理专业认证,在国际上具有广泛的影响力。全面覆盖:基于DAMA-DMBOK知识体系,覆盖数据管理的各个领域。分级认证:提供不同级别的认证,适合不同经验和能力水平的从业者。持续更新:随着数据管理领域的发展,认证内容和要求也在不断更新。

2025-03-16 08:45:00 720

原创 第五篇:数据治理系统建设全景图

Apache Atlas最初由Hortonworks开发,于2015年7月开始在Apache孵化,2018年6月发布1.0版本。它是一个为Hadoop生态系统设计的元数据管理和数据治理平台,提供了开放的元数据管理和治理能力,以满足企业对数据资产管理的需求。“Apache Atlas是首批集成数据治理功能的开源数据目录之一。然而,这个项目的开发周期有点慢,更不用说这个项目是专门为Hadoop生态系统构建的。它可以很好地与任何与Hive集成的东西配合使用。元数据类型系统。

2025-03-16 08:30:00 1561

原创 第四篇:数据治理成效评估与标杆实践

数据治理的成效评估需要建立量化的指标体系,包括合规性指标、质量指标、效率指标和价值指标。不同行业在数据治理方面有着各自的最佳实践,这些实践可以为其他企业提供有益的参考。在实施数据治理过程中,企业应避免过度依赖技术、忽视业务参与等常见误区。

2025-03-15 08:00:00 1442

原创 第三篇:数据治理实施路线图设计

在制定数据治理目标时,应遵循SMART原则,即目标应该是具体的(Specific)、可衡量的(Measurable)、可实现的(Achievable)、相关的(Relevant)和有时限的(Time-bound)。“行动计划的制定要与企业实际相结合,可执行、可量化、可评估。这一观点强调了目标设定的实用性和可行性,与SMART原则相一致。具体的(Specific)目标应该明确具体,清晰表达要达到的结果,避免模糊和歧义。可衡量的(Measurable)

2025-03-15 07:30:00 619

原创 第二篇:中国企业数据治理现状与典型挑战

随着数字经济的快速发展,数据已成为企业的核心战略资产。然而,中国企业在数据治理实践中仍面临诸多挑战。本文将深入分析中国企业数据治理的现状,对比金融、医疗、制造业等不同行业的数据治理成熟度,梳理相关政策法规驱动因素,剖析企业普遍面临的数据治理痛点,并通过典型案例深入探讨数据治理项目失败的根本原因,为企业构建有效的数据治理体系提供参考。

2025-03-14 07:45:00 921

原创 第一篇:数据治理的核心价值与基础框架

数据治理作为一种战略性方法,旨在确保数据的质量、安全性和价值最大化,正逐渐成为企业数字化转型的关键环节。本文将深入探讨数据治理的核心价值、与数据管理的区别、主流框架以及行业实践,为企业构建有效的数据治理体系提供指导。

2025-03-14 07:30:00 1104

原创 数字化转型之数据治理的核心价值与基础框架

战略定位:数据治理是数字化转型的基础工程,需提升至C-level战略高度。技术融合:AI与区块链技术推动治理自动化与可信化,如智能数据清洗与分布式账本应用。行业适配:金融业侧重合规审计,制造业关注IoT数据融合,医疗行业聚焦隐私保护。政策驱动:2025年数据要素市场化政策(如数据资产入表)加速数据价值释放。

2025-03-13 15:09:46 718

原创 Hive高级SQL技巧及实际应用场景

如果你经常需要计算中位数,可以编写一个用户定义函数(UDF)来简化这个过程。# 注册UDF到HiveSELECTJOIN (SELECT。

2025-03-13 13:40:46 862

原创 机器学习背后的数学芝士

在当今快速发展的科技领域,机器学习作为人工智能的核心技术之一,正在深刻地改变我们的生活和工作方式。本文将了解一下机器学习背后的关键数学芝士。

2025-03-12 08:00:00 278

原创 Flink之Q&A在极端乱序下,Flink还能处理吗?

Flink通过水印策略优化、状态存储扩展及旁路输出等机制配合可应对大部分极端乱序场景。但对于延迟无上限或要求绝对数据完整性的场景,需结合外部存储和离线计算实现最终一致性‌。实际应用中需根据业务容忍度在延迟、吞吐量、计算成本之间进行权衡‌。

2025-03-12 07:45:00 644

原创 Flink之水印(watermark)的补充理解

水印(Watermark)‌:用于==事件时间==处理,标记数据流的进度,解决乱序和延迟问题,触发窗口计算‌

2025-03-11 22:25:12 1047

原创 Impala查询引擎一篇应该够用额

impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快10到100倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sql工具

2025-03-11 08:00:00 1712

原创 hbase-04 协处理器、热点、数据备份、二级索引

为了HBase的数据查询更高效、适应更多的场景,诸如使用非rowkey字段检索也能做到秒级响应,或者支持各个字段进行模糊查询和多字段组合查询等, 因此需要在HBase上面构建二级索引, 以满足现实中更复杂多样的业务需求。hbase的二级索引其本质就是建立HBase表中列与行键之间的映射关系。

2025-03-10 08:00:00 947

原创 hbase-03 实践、整合hive

HBase表中的数据最终都是存储在HDFS上,HBase天生的支持MR的操作,我们可以通过MR直接处理HBase表中的数据,并且MR可以将处理后的结果直接存储到HBase表中。Hive提供了与HBase的集成,使得能够在HBase表上使用hive sql 语句进行查询、插入操作以及进行Join和Union等复杂查询,同时也可以将hive表中的数据映射到Hbase中

2025-03-10 07:45:00 1955

原创 hbase-02 存储原理、读写流程、region拆分合并、预分区

一个HRegionServer会负责管理很多个region一个**==region==**包含很多个==store==一个**==列族==就划分成一个==store==**如果一个表中只有1个列族,那么每一个region中只有一个store如果一个表中有N个列族,那么每一个region中有N个store==一个store==里面只有==一个memstore==memstore是一块内存区域,写入的数据会先写入memstore进行缓冲,然后再把数据刷到磁盘一个store里面有很多个**==Sto

2025-03-09 09:15:00 749

原创 hbase-01 架构、数据模型、shell命令、javaAPI、过滤器

HBase基于Google的BigTable论文,是建立的==HDFS==之上,提供**高可靠性**、**高性能**、**列存储**、**可伸缩**、**实时读写**的分布式数据库系统。* 在需要==实时读写随机访问==超大规模数据集时,可以使用HBase。

2025-03-09 09:00:00 837

原创 Flink之SQL join

Flink sql 支持对动态表进行复杂且灵活的join操作。考虑到查询可能需要的各种语义,flink提供了多种不同类型的join。默认情况下,join的顺序没有做过优化。表是按照他们在from子句中指定的顺序进行join的。你可以通过把更新频率最低的表放在最前面,把更新频率最高的表放在最后面,来调整连接查询的性能。确保指定表的顺序不会产生交叉连接(笛卡儿积),flink不支持这样的操作,会导致查询失败。

2025-03-08 19:28:28 1026

原创 hbase-06 Phoenix安装部署&构建二级索引

对于HBase而言,如果想精确地定位到某行记录,唯一的办法是通过rowkey来查询。如果不通过rowkey来查找数据,就必须逐行地比较每一列的值,即全表扫瞄。对于较大的表,全表扫描的代价是不可接受的。

2025-03-08 18:50:40 620

原创 hbase-05 namespace、数据的确界&TTL

在HBase中,namespace命名空间指对一组表的逻辑分组,类似RDBMS中的database,方便对表在业务上划分。在HBase当中,我们可以为数据设置上界和下界,其实就是定义数据的历史版本保留多少个,通过自定义历史版本保存的数量,我们可以实现数据多个历史版本的数据查询在实际工作当中经常会遇到有些数据过了一段时间我们可能就不需要了,那么这时候我们可以使用定时任务去定时的删除这些数据或者我们也可以使用Hbase的TTL(Time To Live)功能,让我们的数据定期的会进行清除

2025-03-08 18:27:12 634

原创 Flink之Barrier对齐会影响执行效率,怎么跳过Barrier对齐,跳过后还能保证‌Exactly-Once语义吗?

特性Barrier对齐检查点非Barrier对齐检查点执行效率‌可能因等待Barrier产生延迟无等待,吞吐量更高检查点大小‌较小较大(含未处理数据)Exactly-Once保证‌支持支持适用场景‌常规数据流高吞吐/数据倾斜/反压严重通过合理选择检查点模式,可在效率与资源消耗之间取得平衡‌。

2025-03-08 15:04:07 520

原创 Sqoop数据迁移工具一篇应该够用额

并不需要将表中的数据全部导入到hive或者hdfs当中去,肯定会出现重复的数据的状况,所以我们一般都是选用一些字段进行增量的导入,为了支持增量的导入,sqoop也给我们考虑到了这种情况并且支持增量的导入数据。在MySQL数据库服务器中创建一个数据库userdb, 然后在创建一张表 emp,添加点测试数据到表中。从MySQL数据库服务器中的userdb数据库下的emp表导入HDFS上。sqoop在发展中的过程中演进出来了两种不同的架构.增量导入是仅导入新添加的表中的行的技术。版本号为1.4.x0。

2025-03-08 11:22:37 672

DeepSeek从入门到精通(清华大学) 清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室

1-DeepSeek从入门到精通(清华大学).pdf 2-DeepSeek如何赋能职场应用(清华大学).pdf 3-普通人如何抓住DeepSeek红利(清华大学).pdf 4-DeepSeek+DeepResearch:让科研像聊天一样简单(清华大学).pdf

2025-02-20

flink1.14.0 kudu1.10.0 connector

基于https://github.com/apache/bahir-flink.git当前的版本应该是flink1.12.2,kudu是1.13.0。 按照我自己的环境将flink升级到1.14.0也就是目前最新的版本,kudu降到1.10.0。 由于flink api的改动,所以修改了一丢丢源码,同时最后编译打包时跳过了deprecation警告,得到目前的包。 【环境:cdh6.3.2(kudu1.10.0)+flink1.14.0+scala2.11.12】简单测了一下可以使用,如遇问题欢迎骚扰~

2021-12-07

cdh6.3.2+cm6.3.1.zip下载

CDH官方的网站已经无法直接下载安装包了(需要账号密码), 此处版本为:【CM-6.3.1】,【CDH-6.3.2】 包含所有安装所需文件(含allkeys.asc以及manifest.json)。

2021-07-07

excel截图jar.zip

资源包含Aspose-cells-19.3.jar,还有demo使用样例,以及样例要用到的excel和将jar导入本地maven仓库的语句。使用细节以及缺失代码见https://blog.youkuaiyun.com/u010342213/article/details/106139954 【仅供个人学习使用,请勿用于商业!】

2020-05-15

netty-all-5.0.0.Alpha2

Netty 5.0以前是发布alpha版。听说Netty 5.0不继续开发了,这个是相当大的吃惊,目前也有一部分书籍是基于Netty5来讲的,所以给那些初学者也是很郁闷的赶脚。 而本站有人上传了jar包资源却要30积分,看不下去了,虽然是Alpha2的,但是用来学习还是可以的。不过netty作者建议还是去学习netty4.0 或者4.1

2019-04-17

邮件发送工具

java邮件发送工具,基于SpringMail发送邮件,其中包含三个文件mail.properties,配置发送邮箱信息;PropertiesUtil.java,通过该类读取配置信息;MailSendUtil.java,通过sendMail静态方法发送邮件,可以设置接收人列表,抄送人列表,附件列表,邮件主题。

2018-09-05

centos6.5 gcc 离线安装包

centos6.5 gcc 离线安装包 ,其中包含 rpm文件,和安装脚本,在离线环境下,运行安装脚本,即可完成gcc安装;

2018-05-02

SQL Server jdbc 驱动下载 -- sqljdbc4

资源中包含一个压缩包,解压后,在sqljdbc所在目录执行 mvn install:install-file -DgroupId=sqljdbc4 -DartifactId=sqljdbc4 -Dversion=4 -Dpackaging=jar -Dfile=sqljdbc4.jar 命令即可;注意:根据个人的需求注意修改这段代码,例如版本号、-Dfile对应的存放位置等;

2017-12-26

oracle jdbc driver --ojdbc

===亲测可用==== 使用方法: 1、解压,在ojdbc14.jar(把‘-副本’去掉)所在目录,shift+右击,在此处打开命令窗口; 2、执行 mvn install:install-file -DgroupId=com.oracle -DartifactId=ojdbc14 -Dversion=14 -Dpackaging=jar -Dfile=ojdbc14.jar 命令 3、pom.xml中添加 <dependency> <groupId>com.oracle</groupId> <artifactId>ojdbc14</artifactId> <version>14</version> </dependency> 即可;

2017-12-26

PLSQL_v1104_x64+注册码+汉化工具

PLSQL_v1104_x64+注册码+汉化工具:如题包含了PLSQL Developer工具64位的安装包,以及相应的汉化工具和注册码,详情可以查看资源中的使用说明。

2017-12-19

struts2 Demo

这是一个struts2框架的处理流程的demo,里面有struts2基本的配置和模拟登录的例子,以及struts2前台后后台的数据交互方式的解释,代码中有完整的注释帮助理解struts2的基本流程,同时对jstl和struts2的标签也有一定的使用,可以给初学者一定的拓展方向; 文件中包含 readme.txt;源代码;struts2 result type类型的基本解释图片;相信对于初学者,通过这个demo可以基本掌握struts2的使用,注意,该demo是纯粹的struts2,没有其他框架内容,请注意甄别......

2017-04-25

jspsmartupload支持中文下载

这是对jspsmartupload.jar包进行了源码的部分修改。原jspSmartUpload组件对返回的文件未作任何处理,现在做了编码的转换工作,将文件名转换为utf-8形式的编码形式从而修复了了原jar包在下载时对中文乱码的问题。 经测试修改后的jar包名为utf8jspsmartupload.jar,使用方法与员jar包一致。亲测可用。

2016-07-17

简易封装百度地图API

这个zip解压后会有三个文件,除jquery文件,另两个的源码都有。是调用百度地图的api写的一个小工具,对ip地址没有限制的,在web开发中都可以直接调用。js文件是地图的生成。demo实例,可以看出调用。有详细的注释

2014-10-11

Intel Atom x86模拟器的安装与使用
详解

这个文档是自己学习过程中的一些心得体会,整理出的一个文档,里面涵盖了安卓的环境搭建工具的下载地址和图解,以及模拟器的安装和配置,还有安装途中遇到的一些问题及解决方法!有不到之处请谅解。。。有需要开发工具的的给我留言

2014-10-11

Base64批量加密工具

同学叫帮忙写一个帮她做base64批量加密的程序,省得手动一条一条的加密,用java的,写完后,有点强迫症就把它封成一个很简单的小应用,目前只能加密,见谅!

2014-08-28

多版本php手册压缩包

这是php手册压缩包,里面包含了多版本的php手册,比较全面,拿来和大家分享

2014-08-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除