数字化建设通关指南
文章平均质量分 88
SQL数据分析能力的提升、高级技巧及热门面试问题
数字化建设当中常见一些问题及思考
数字化建设业务该如何落地
数字化建设平台该如何选型
预算不够或资源不足时候,该如何向老板汇报?
数字化落地后该如何体现价值?在公司推广?
业务分析师应如何做好指标体系建设
余额抵扣
助学金抵扣
还需支付
¥99.90
¥299.90
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
莫叫石榴姐
10多年IT经验,数仓及SQL领域教练及专家,曾作为主面试官,面试多个候选人
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数仓建模:设计上规范应如何做? | 数仓建设规范
在技术架构选型确定后,就需要对数据仓库主体分层进行划分,将原始明细数据存储于数据接入层,通过各分层的加工处理,最终输出到贴近业务的数据应用层,如下图所示:对于业务逻辑比较复杂的我们也可以抽象出基础指标层,按照实体建模,对同一对象的指标合并。DWD(明细数据层):又叫清洗层,和ODS层数据粒度一致,该层主要是对原始数据进行ETL操作,包括数据去重、脏数据过滤、空值处理、字段映射、数据脱敏、缺失值补充等操作,目的是为了保证数据质量。,比如财务主题、采购主题、生产主题、 库存主题、销售主题、服务主题。原创 2024-09-06 08:30:00 · 802 阅读 · 0 评论
-
SQL进阶技巧:数据预处理如何对数据进行分桶【分箱】?
本文详细介绍了数据分析中常见的几种分桶方式:基于业务规则的分桶、等距分桶及等频分桶等,针对每种分桶方式给出了SQL实现原创 2024-08-05 13:26:31 · 3420 阅读 · 0 评论
-
数仓建模:DWS层该如何建设?如何设计通用数据模型?
这样做不是不可以,在业务初期指标不是很多的情况下,我们为了能够快速构建应用看板可以这么做,但是随着业务的场景越来越复杂,指标越来越多,业务看数的需求变得更多的时候,这种模式就给IT人员造成了困扰,每一次需求都要重新开发一次,如果需求变更、迭代的快,明显数据开发人员开发速度是跟不上提需求的速度,这时候就需要我们数仓开发的同学去做好数据、指标的沉淀,开发更高效的模型来快速应对业务不断更新与迭代的各类需求,因此DWS公共汇总服务层便应运而生。总之DWS层是基于指标体系构建的对象宽表,主要是对对象的行为进行分析。原创 2024-07-31 15:15:41 · 1228 阅读 · 0 评论
-
数据指标异常应如何排查?完整的解决思路
在数据分析时,经常会遇到一些异常数据问题,比如某个商店近一周GMV突然下跌,某APP日活突然下降,此时就会被业务方质疑数据有问题。面对业务方质疑的时候我们如何快速找到问题原因,并给出解决方案呢?本文就为你提供一种指标异常时的完整解决方案。1数据准确性确认在面对异常信息的时候,首先要确认数据的准确性,也就是先要确认这个异常是否为真正的异常。1.1数据源的确认数据源是我们取数的基础,确保数据源的正确性是数据分析首要做的事情。1)确认数据有没有同步更新到最新2。原创 2024-07-18 11:04:39 · 745 阅读 · 0 评论
-
# 数仓建模:如何构建主题宽表模型?
(1)确定主键id:确定对象,如学员表,对象为学员,根据学员id关联其他数据源,其粒度不变(2)确立对象的属性:将对象属性冗余进宽表。如学员id,将学员的相关信息进行冗余(3)确立对象与对象之间的关系:如学员与教练的关系,一个学员可以有多个教练,该教练的信息如何。(4)确立对象的行为指标:该对象做了什么,发生了什么?如:学员报了几门课程,一共上过几门课,还有多少没上,成绩如何。原创 2024-07-11 10:47:22 · 1915 阅读 · 0 评论
-
维度建模中,“维度”和“度量”的定义是什么?如何从业务需求中识别维度和度量?
维度与度量的识别是数据分析的关键环节。维度是观察数据的角度(如时间、地区),用于分组和筛选;度量是可量化的数值指标(如销售额、用户数),用于计算和分析。识别时需聚焦业务过程,通过提问法区分:能分组的是维度,需计算的是度量。注意避免数值型维度与文本型度量的混淆,并确保粒度一致。维度建模的核心价值在于将业务需求转化为可分析的数据结构,实现高效直观的业务洞察。原创 2025-11-24 11:00:00 · 140 阅读 · 0 评论 -
城市早高峰,最多有多少人同时在等车?| 滴滴出行
本文介绍了计算城市最大同时等车人数的方法。核心思路是将每个订单拆分为开始等车(+1)和结束等车(-1)两个事件,按时间排序后累加计算实时等待人数,最终找出最大值。通过SQL实现时,使用UNION ALL合并事件、SUM()OVER()进行滚动累加,并注意同一时刻要先处理+1事件。该方法适用于各类"最大并发数"问题,如会议室使用、在线用户数统计等,通过扫描线算法可准确捕捉峰值时刻的并发量。原创 2025-11-21 11:00:00 · 21 阅读 · 0 评论 -
共享单车用户行为分析技术方案
本文提出一套完整的共享单车用户行为分析技术方案,涵盖数据建模、活跃度监控、时空行为挖掘与高级用户分群四大核心模块。方案基于真实业务场景设计,采用标准化数据仓库架构与可扩展分析模型,支持从宏观运营监控到微观用户运营的全链路决策支持。所有分析逻辑均通过 SQL 实现,兼容主流大数据平台(如 Hive、Spark SQL),具备高复用性与工程落地价值。DAU(日活跃用户):当日有 ≥1 次骑行的用户数WAU(周活跃用户):当周有 ≥1 次骑行的用户数MAU(月活跃用户):当月有 ≥1 次骑行的用户数。原创 2025-11-19 11:00:00 · 32 阅读 · 0 评论 -
面对复杂业务(如电商的下单-支付-物流全链路),你会如何拆分数据模型?
本文摘要:文章系统阐述了复杂业务数据模型拆分的五步方法论。首先通过业务域划分明确职责边界,采用DDD战术设计进行域内模型拆分(聚合根+实体+值对象),再通过ID引用实现跨域关联。重点介绍了事件驱动机制保障流程连贯性,以及合理冗余与最终一致性的平衡策略。最后以电商全链路为例展示了用户、商品、订单、支付、物流等核心域的模型结构,强调业务优先、边界清晰、事件解耦等核心原则,实现高内聚低耦合的可扩展架构。该方法适用于电商等复杂业务流程的建模需求。原创 2025-11-18 10:00:00 · 42 阅读 · 0 评论 -
用领域驱动设计(DDD)构建业务对齐的数仓数据模型
本文探讨将领域驱动设计(DDD)应用于数据仓库模型构建的方法。通过战略DDD划分主题域对应业务限界上下文,用战术DDD的聚合根定义数据入口,实体和值对象封装明细层数据,领域服务实现业务规则计算。DDD方法能有效解决传统数仓的业务脱节、数据不一致和扩展性差三大痛点:1)主题域划分确保数仓与业务对齐;2)领域服务保证计算逻辑一致性;3)聚合根设计支持弹性扩展。实践要点包括:聚合根需兼顾分析需求、值对象采用快照保存、领域服务应可复用。最终实现业务语义一致、分析逻辑可复用、扩展性强的现代数据仓库。原创 2025-11-17 10:00:00 · 41 阅读 · 0 评论 -
深入理解 SQL 中的 IN、NOT IN 与关联操作(JOIN):语义、陷阱与性能优化指南
SQL查询中的IN、NOTIN与JOIN操作对比与优化指南 摘要: 本文系统分析了SQL中IN/NOTIN与JOIN操作的异同,重点揭示了NOTIN在处理NULL值时的致命缺陷。文章指出,IN适用于存在性判断,JOIN适合关联数据获取,而NOTIN因NULL值会导致意外空结果集,推荐使用NOT EXISTS或LEFT JOIN...ISNULL替代。通过电商、半导体制造等实际场景,展示了不同操作的选择策略,并提供了性能优化建议,包括索引设计、执行计划监控等。最后给出了明确的决策流程图,帮助开发者在不同场景下原创 2025-11-14 12:00:00 · 38 阅读 · 0 评论 -
技术实战:基于 RFM 模型识别低价值用户并追踪其最后一次下单餐厅
摘要:本文介绍基于SQL的RFM客户价值分析方法,通过Recency(最近消费)、Frequency(消费频次)和Monetary(消费金额)三个维度评估用户价值。文章详细阐述了从数据准备、RFM指标计算到得分的完整SQL实现过程,包括窗口函数NTILE()的使用和数据分组策略。分析结果显示,RFM总分≤4分的低价值用户具有消费间隔长、频次低、金额低的特点,建议通过优惠券、精准营销等挽留策略提高用户留存。该方法可应用于电商、会员服务等多个领域,为制定客户关系管理策略提供数据支持。原创 2025-11-13 12:00:00 · 291 阅读 · 0 评论 -
如何从多源业务表对商家进行综合评估?
本文探讨了电商平台如何构建商家健康度评估模型。通过分析销售、退款、满意度等异构业务数据,提出分层聚合+主维对齐的建模方法,避免笛卡尔积陷阱导致指标失真。文章详细介绍了SQL实现方案,强调先按商家ID聚合再关联的正确流程,并对比常见错误写法。最后指出数据分析本质是"先逻辑、后代码"的建模思维,强调指标定义、数据探查和工程实现的系统性。原创 2025-11-12 11:00:00 · 43 阅读 · 0 评论 -
滴滴网约车数分笔试 SQL 题:用户分层与取消率 Top 用户挖掘
本文解析了滴滴网约车业务线的两道SQL笔试题:1)对9月份用户按完成订单数分层统计(A层>10单,B层6-10单,C层3-5单,D层1单),需注意完成订单定义(cancel_time为NULL);2)筛选9月份取消率最高的前1000名用户(要求发单数>5单),关键点在于正确计算取消率和HAVING条件应用。解题过程展示了时间过滤、条件聚合、CASE分层和TopN查询等核心SQL技巧,贴近实际业务中的用户行为分析和异常识别需求。原创 2025-11-10 12:00:00 · 196 阅读 · 0 评论 -
数仓开发中口径发散如何治理?
本文探讨数据仓库中指标口径不一致问题的根源及解决方案。问题的本质在于数据处理环节(表选择、关联、过滤、计算)分散在不同层级和脚本中,导致口径标准混乱。解决方案是通过分层职责固化:ODS层仅存储原始数据,DWD层完成关联和基础过滤,DWS层处理聚合计算,ADS层仅做展示调整。同时建立指标字典将业务定义与技术逻辑对应,并配套开发流程约束和测试验证机制。这种规范化的口径收敛方法能从根本上提升数据可信度,使数据真正成为业务决策依据,而非争议源头。原创 2025-11-10 11:00:00 · 41 阅读 · 0 评论 -
创作者粉丝增长分析实战 | 腾讯
本文探讨了使用SQL窗口函数分析创作者月度粉丝增长情况的方法。通过三层嵌套查询结构:行为数据转换、月度数据聚合和累计计算,实现粉丝增长率和累计粉丝量的统计分析。技术亮点包括窗口函数的巧妙应用(SUM() OVER()实现累计求和)、异常数据处理策略(使用-100000标识异常值)和时间维度处理方法(LEFT截取年月)。该方案可支持创作者成长分析、内容策略优化等业务场景,具有逻辑清晰、执行高效的特点,可扩展至类似时序数据分析需求。原创 2025-11-07 12:00:00 · 35 阅读 · 0 评论 -
如何构建数仓健康评估体系?有哪些评估指标?| 阿里
本文系统介绍了数据仓库健康评估体系的构建方法。该体系通过六大核心维度(业务价值、数据质量、架构设计、性能效率、运维管理、成本效益)和15-20个关键指标,采用维度加权法计算健康分,将抽象的健康状态量化。具体构建步骤包括:明确评估目标与边界、选择核心指标、定义健康分档规则、计算总健康分并建立闭环机制。评估体系强调根据不同业务场景调整权重,并实现"发现问题→定位根因→优化改进"的闭环管理。最终目标是推动数仓从满足当前需求向支撑未来业务演进,实现数据可信、架构可持续和业务价值最大化。原创 2025-11-06 12:00:00 · 51 阅读 · 0 评论 -
工作日用车高峰时段数据分析 | 滴滴
摘要:本文通过SQL分析工作日共享出行平台的用车数据,将时段划分为早高峰、工作时间、晚高峰和休息时间,统计用车次数、平均等待时间和派单时间。结果显示早高峰需求最集中且等待时间最长,建议增加运力、优化派单算法和引导用户预约。分析方法可为时间敏感性服务提供运营优化参考,后续可结合天气等维度深化分析。原创 2025-11-05 11:00:00 · 195 阅读 · 0 评论 -
数仓是如何进行整合的?
文章摘要:数据仓库整合的核心是通过标准化指标、维度和模型,将分散数据转化为可复用的分析资产。具体步骤包括:1)梳理业务域和过程,明确边界;2)统一指标定义和口径,消除歧义;3)规范维度层级和取值,统一分析视角;4)构建业务矩阵,连接业务-维度-指标;5)设计明细模型(原子数据)和汇总模型(聚合数据);6)建立持续治理机制应对业务变化。整合本质是让数据可理解、可复用,从"数据存储"升级为"决策引擎"。原创 2025-10-30 08:15:00 · 51 阅读 · 0 评论 -
如何利用滚存表优化数仓中的累计指标?
摘要: 滚存表(Rolling Table)通过预计算+滚动更新的方式存储高频使用的累计/滚动指标(如30天销售额、YTD收入),解决明细表直接计算的性能瓶颈与口径不一致问题。其核心价值在于提升查询效率(毫秒级响应)、统一业务口径,并支持滑动窗口(如近7天)或累计周期(如MTD)的灵活分析。实现方式分为全量重算(逻辑简单,适合小数据量)和增量维护(效率高,适合大数据量)。典型应用包括电商复购率、零售月累计销售额等场景。需注意指标口径定义、历史数据回溯、元数据管理及存储成本控制,以平衡计算与存储的关系。滚存表原创 2025-10-28 12:00:00 · 42 阅读 · 0 评论 -
设计DWS层时如何选择纬度,产生对应的指标?
摘要: DWS层设计需围绕业务需求选择维度和指标。维度是分析视角(如时间、地域、商品),需满足核心业务、匹配用户习惯、平衡数据粒度(最小可分析粒度)、与指标强相关,并控制技术复杂度(避免高基数组合)。指标是量化结果(如销售额、转化率),需从业务问题推导,明确聚合方式(sum/count/ratio)和业务含义。实践中,电商DWS层常采用星型模型,核心维度(时间+商品+地域+渠道)对应核心指标(销售额、订单量等)。避免维度过多或过粗,需持续迭代优化,确保数据高效支撑分析需求。原创 2025-10-29 10:00:00 · 39 阅读 · 0 评论 -
技术债务缠身的老数仓,是先重构还是先业务?
摘要:老数仓面临技术债务与业务需求的冲突时,应通过"业务价值驱动"的渐进式重构策略。决策框架从业务影响度、故障紧急度和投入产出比三个维度量化评估债务优先级,优先解决高价值债务。实施机制包括成立跨部门专项小组、建立闭环流程(识别-评估-消解-验证-复盘)、保障资源投入及纳入KPI考核。最终目标是实现技术债务治理与业务发展的动态平衡,使数仓成为支撑业务增长的"高效数据基础设施"。(149字)原创 2025-10-24 10:00:00 · 41 阅读 · 0 评论 -
数仓开发中SQL Code Review到底在review什么?
数仓SQL代码审查的核心在于确保SQL适配数仓特性,包括业务逻辑准确性、分层模型合规性、大数据性能稳定性和数据质量可靠性四大维度。审查需重点关注:业务口径一致性、分层边界约束(ODS/DWD/DWS/ADS各层职责)、大数据优化点(分区利用、数据倾斜处理等)以及代码可维护性。通过全链路校验,保障SQL从"能跑"到"跑对、跑快、跑稳、跑久",最终实现业务需求到数仓落地的精准映射与风险防控。原创 2025-10-23 10:00:00 · 41 阅读 · 0 评论 -
如何评估数仓分层设计的合理性?| 腾讯数据架构
数据仓库分层设计评估应关注业务匹配度、分层清晰度、数据流转效率、复用性和性能优化等维度。核心标准包括:分层数量与业务规模适配(中小业务3层,复杂业务4层);各层职责明确(ODS存原始、DWD做清洗、DWS管汇总、ADS供查询);数据血缘可追溯率达100%;中间层复用率≥60%;查询响应≤5秒。需通过工具监控存储压缩比、批处理超时率等指标,确保新增需求开发周期≤1天,问题定位≤1小时。优化重点包括消除跨层依赖、合并重复加工、提升DWS指标覆盖率至80%以上,最终实现快速响应、质量可靠、成本可控的目标。原创 2025-10-22 10:00:00 · 50 阅读 · 0 评论 -
面试提问:业务对指标结果质疑时,你会怎么处理?| 快手
摘要:本文系统梳理了应对业务方数据指标质疑的六步排查法:1)对齐业务预期与指标定义,消除认知差;2)核查指标计算规则与口径;3)验证数据采集、计算、存储全链路;4)通过基准数据交叉验证;5)排查业务场景特殊因素;6)用业务语言闭环反馈。强调数据治理要建立"指标字典"和监控机制,核心思路是将技术验证与业务逻辑结合,最终实现"用业务常识解释数据异常"。该方法适用于互联网/数据岗位面试场景,能体现结构化思维和业务数据融合能力。(149字)原创 2025-10-21 11:00:00 · 531 阅读 · 0 评论 -
数据质量治理的成效是如何来量化?
本文提出数据质量治理的量化框架,从数据指标和业务价值两个层面构建评估体系。在基础数据质量指标方面,围绕准确性、完整性等六大维度设计具体计算公式;在业务价值指标方面,针对不同场景建立治理效果与业务成果的关联分析。实施路径包括明确目标指标、建立基准、工具支撑、归因分析和持续优化五个步骤,并指出关联业务价值、工具缺失等主要挑战。最终强调量化目标在于实现数据质量与业务需求同频共振,持续创造价值。(148字)原创 2025-10-20 12:00:00 · 46 阅读 · 0 评论 -
面试提问:如果业务方临时要一个新指标,你会如何处理
摘要:本文介绍了处理临时指标需求的标准化流程,强调"先注册、再开发、后使用"的原则。具体步骤包括:1)明确业务需求与指标口径;2)检查指标复用性;3)走指标注册与评审流程;4)技术实现与上线;5)后续治理。通过案例说明规范流程可避免重复开发并提升数据一致性,同时指出直接提供SQL结果等错误做法。最后强调临时需求仍需规范处理,以保障数据质量与长期效率。原创 2025-10-20 10:00:00 · 165 阅读 · 0 评论 -
数仓建模:业务驱动or数据驱动?
数仓建模需要平衡业务驱动与数据驱动两种模式。业务驱动以业务流程为核心,构建结构化模型解决当前需求;数据驱动则挖掘多源数据关联,发现潜在业务价值。单一模式存在局限:纯业务驱动易固化难扩展,纯数据驱动易脱离实际业务。最佳实践是"业务驱动搭框架+数据驱动做迭代":先用业务需求建立核心模型框架,再通过数据关联分析进行扩展优化。成熟业务宜侧重业务驱动,创新业务可优先数据驱动,但最终目标都是为业务创造价值。数仓本质是业务价值的数字化载体,建模方法需适配业务阶段特点。原创 2025-10-17 10:00:00 · 45 阅读 · 0 评论 -
面试提问:每天更新但没人用的数据表是否算数据资产?
摘要:判断"每天更新但没人用"的数据表是否属于数据资产,需综合考虑其价值维度和使用场景。若数据表具有合规价值(如满足监管要求)、支撑价值(作为其他数据的基础)或潜在用途(未来可能使用),即使当前无人使用,仍应视为数据资产。反之,若数据表无任何价值且持续消耗资源,则属于数据负债,应进行清理。核心标准在于数据是否能为企业带来现实或可预期的经济利益,而非仅基于当前使用情况。企业应建立动态评估机制,定期审查数据资产的价值状态。原创 2025-10-16 10:00:00 · 48 阅读 · 0 评论 -
面试提问:ADS层SLA如何保障?
摘要 针对ADS层表就绪时间因数据量突增而延迟的问题,本文提出系统性解决方案:明确SLA三重定义(时间、质量、性能),通过全链路依赖建模识别关键节点;构建覆盖时间、数据、资源、质量的监控体系,设置三级预警机制;实施弹性任务调度策略,包括依赖管理、优先级调度、动态资源分配和并行容错机制。最终实现从被动响应到主动可控的转变,保障数据及时交付业务需求。核心在于量化SLA指标、提前预警干预、资源弹性伸缩和建立容错兜底机制。原创 2025-10-15 10:00:00 · 460 阅读 · 0 评论 -
数仓宽表灵魂提问:如何将不同业务粒度的事实数据与维度信息整合到一张宽表中?
多事实粒度宽表设计:提升数据分析效率的关键策略 多事实粒度宽表通过整合不同粒度业务数据和维度信息,有效解决了传统数据模型在跨粒度分析、多表关联和维度更新方面的痛点。设计核心在于以主粒度(如订单ID)为锚点,通过聚合、窗口计算和维度关联三种策略实现多粒度对齐,并扁平化高频维度字段。电商案例展示了如何将用户、商品等多粒度数据整合到订单粒度宽表中,显著提升查询效率。设计需注意避免过度冗余、处理缓慢变化维度,并采用列存、分区等技术优化性能。该设计通过合理冗余换取查询效率,成为支撑高效BI分析的核心工具。原创 2025-10-14 10:00:00 · 284 阅读 · 0 评论 -
读者提问:如何在一张宽表上做出不同业务过程、统计不同粒度的指标?
订单支付率下降分析的数据仓库设计 针对订单支付率下降的分析需求,建议采用三层DWS宽表设计方案: 日期粒度宽表(dws_order_metrics_daily): 按日统计核心指标(下单率、支付率) 支持按渠道、用户等级等维度拆分分析 解决指标粒度不一致问题(用户数/订单数) 用户粒度宽表(dws_user_behavior_daily): 记录用户全链路行为数据 识别低质用户特征(如新用户、特定渠道) 分析用户级别的转化率差异 订单粒度宽表(dws_order_full): 包含三个业务过程完整信息 支持原创 2025-10-13 10:00:00 · 48 阅读 · 0 评论 -
面试提问:Hive中如何高效的判断两张表数据是否完全一致?
Hive表数据一致性验证方法摘要:采用分层验证策略,从低成本的元数据检查到高代价的内容验证。首先对比Schema结构(字段类型、顺序)、行数、分区等元数据;其次通过哈希求和法高效验证内容一致性,将每行数据转为哈希值并求和比对;对于分区表按分区并行计算。若需定位差异,可采用哈希统计次数法或EXCEPT ALL方法。关键优化包括:空值处理、分隔符选择、哈希截断等,兼顾准确性与性能,特别适合大数据量场景。原创 2025-10-11 12:00:00 · 64 阅读 · 0 评论 -
百度面试提问:数仓中什么是交叉维度,如何解决?| 附场景案例
摘要: 交叉维度是维度建模中多个维度间存在属性重叠、实体分裂或多对多关联的问题,会导致数据冗余、查询复杂等问题。解决方法包括:1) 合并维度(统一实体,如用户与会员);2) 规范化维度(剥离重复属性,如产品与品牌);3) 桥接表(处理多对多关系,如用户与活动);4) 垃圾维度(合并低基数小维度,如支付方式);5) 一致维度(跨数据集市统一,如时间维度)。通过案例(电商、零售等)验证,这些方法可消除冗余、提升查询效率并保证数据一致性,遵循维度建模的简洁高效原则。原创 2025-10-10 12:00:00 · 40 阅读 · 0 评论 -
数仓中如何基于维度表的静态规则管理优化CASE WHEN?
本文提出用维度表替代数据仓库中的CASEWHEN语句管理静态业务规则,解决硬编码带来的维护困难、一致性差等问题。通过五大典型场景(状态码映射、产品分类、数值分组、自定义排序、财年计算)展示了维度表的设计实现和优势:规则集中管理、变更无需修改代码、支持历史追溯等。文章还给出了实施建议,包括维度表设计原则、性能优化策略和规则更新机制。这种方案将业务规则从代码转化为数据,提升了数据仓库的灵活性和可维护性。原创 2025-10-09 13:00:00 · 187 阅读 · 0 评论 -
制造行业订单全生命周期管理数仓项目实战
本文介绍了离散制造企业订单管理的数据仓库设计方案。采用分层架构(ODS原始数据层、DWD明细层、DWS汇总层、ADS应用层),通过ETL流程实现数据流转。方案重点包括:1)构建订单明细、状态、节点三类宽表;2)设计漏斗转化、状态监控、统计指标三大汇总主题;3)提供顶部概览、订单追踪、甘特图等应用层数据。优化建议涵盖存储格式、分区策略、索引创建和增量更新。该方案有效支持订单全流程追踪、健康度监控和流程瓶颈分析等核心业务需求。原创 2025-09-29 13:51:33 · 272 阅读 · 0 评论 -
Hive中map函数的基础知识及使用
Hive中的map函数用于创建和操作MAP类型数据,将键值对组合成结构化对象。该函数要求键值类型一致且键唯一,支持静态创建或动态生成MAP列。核心应用包括属性聚合、日志处理、数据拆分统计等场景,需配合explode函数处理动态数据。使用时需注意键的唯一性、类型一致性、NULL值处理及版本兼容性问题。掌握map函数能有效简化复杂数据查询,是处理用户属性、商品特征等结构化数据的实用工具。原创 2025-09-29 10:07:37 · 100 阅读 · 0 评论 -
面试提问:请描述XX业务宽表的字段构成、描述对象和粒度?| 回答模板
本文探讨了数仓宽表建模的关键要素,提出了"业务主体→粒度→字段→价值"的设计闭环。通过电商用户日度行为宽表和物流全链路订单宽表两个案例,详细说明了如何确定描述对象(如注册用户/物流订单)、选择合理粒度(用户-日/唯一单号)以及设计字段(按业务逻辑分类)。特别强调面试回答要具象化,避免笼统,需关联业务场景说明设计原因和价值。文章还提供了面试技巧,建议用具体业务案例将抽象概念落地,展现对业务和数据的深刻理解。原创 2025-09-25 12:00:00 · 170 阅读 · 0 评论 -
如何利用Yarn定位数据倾斜问题?
YARN在大数据开发中虽不直接检测数据倾斜,但可通过多种方式辅助定位问题。关键方法包括:1)通过YARN WebUI查看Task执行时间分布,发现异常耗时任务;2)利用CLI检查Container运行时长差异;3)分析聚合日志识别处理特定Key的慢任务;4)监控节点负载不均情况。定位到倾斜后,可结合计算框架进一步分析Key分布,并通过增大资源、启用推测执行或AQE等策略优化。YARN在倾斜排查中主要承担发现异常、提供可视化分析、日志追踪和资源调优等辅助角色。原创 2025-09-26 12:00:00 · 64 阅读 · 0 评论 -
数仓实战:SLA 达成率计算脚本
本文介绍了基于DolphinScheduler的任务SLA监控系统方案。主要内容包括: 系统架构 适配DolphinScheduler 2.0+版本 支持MySQL/PostgreSQL数据库 核心数据表:t_ds_task_instance和t_ds_process_instance 实现方案 创建SLA配置表dim_task_sla_config 开发SLA达成率计算SQL脚本 建立结果表dws_sla_daily_monitor 提供月度报告SQL模板 功能特点 自动提取业务日期 计算任务延迟时间 7原创 2025-09-25 09:00:00 · 305 阅读 · 0 评论
分享