自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

石榴姐yyds

数据开发与数据挖掘

  • 博客(842)
  • 资源 (43)
  • 收藏
  • 关注

原创 虾皮26秋招大数据开发二面

摘要:本文探讨了数据处理与分析中的多个关键问题。首先介绍了企业数据统计的常用方法,包括实时流处理和离线批处理的技术选型。其次通过具体项目案例,详细说明了业务数据结构分析方法,涵盖核心字段设计、表关联关系梳理等实践。文章还包含两个典型SQL题目解析:一是计算未领取红包用户的留存率,二是统计日活用户和连续登录指标。此外,还总结了维度建模、复杂业务模型拆分等数据仓库建设经验,并分享了滴滴等企业的实际面试题目,为数据分析师和数仓工程师提供了实用的技术参考。

2025-11-24 21:50:06 7

原创 维度建模中,“维度”和“度量”的定义是什么?如何从业务需求中识别维度和度量?

维度与度量的识别是数据分析的关键环节。维度是观察数据的角度(如时间、地区),用于分组和筛选;度量是可量化的数值指标(如销售额、用户数),用于计算和分析。识别时需聚焦业务过程,通过提问法区分:能分组的是维度,需计算的是度量。注意避免数值型维度与文本型度量的混淆,并确保粒度一致。维度建模的核心价值在于将业务需求转化为可分析的数据结构,实现高效直观的业务洞察。

2025-11-24 11:00:00 140

原创 城市早高峰,最多有多少人同时在等车?| 滴滴出行

本文介绍了计算城市最大同时等车人数的方法。核心思路是将每个订单拆分为开始等车(+1)和结束等车(-1)两个事件,按时间排序后累加计算实时等待人数,最终找出最大值。通过SQL实现时,使用UNION ALL合并事件、SUM()OVER()进行滚动累加,并注意同一时刻要先处理+1事件。该方法适用于各类"最大并发数"问题,如会议室使用、在线用户数统计等,通过扫描线算法可准确捕捉峰值时刻的并发量。

2025-11-21 11:00:00 22

原创 共享单车用户行为分析技术方案

本文提出一套完整的共享单车用户行为分析技术方案,涵盖数据建模、活跃度监控、时空行为挖掘与高级用户分群四大核心模块。方案基于真实业务场景设计,采用标准化数据仓库架构与可扩展分析模型,支持从宏观运营监控到微观用户运营的全链路决策支持。所有分析逻辑均通过 SQL 实现,兼容主流大数据平台(如 Hive、Spark SQL),具备高复用性与工程落地价值。DAU(日活跃用户):当日有 ≥1 次骑行的用户数WAU(周活跃用户):当周有 ≥1 次骑行的用户数MAU(月活跃用户):当月有 ≥1 次骑行的用户数。

2025-11-19 11:00:00 32

原创 面对复杂业务(如电商的下单-支付-物流全链路),你会如何拆分数据模型?

本文摘要:文章系统阐述了复杂业务数据模型拆分的五步方法论。首先通过业务域划分明确职责边界,采用DDD战术设计进行域内模型拆分(聚合根+实体+值对象),再通过ID引用实现跨域关联。重点介绍了事件驱动机制保障流程连贯性,以及合理冗余与最终一致性的平衡策略。最后以电商全链路为例展示了用户、商品、订单、支付、物流等核心域的模型结构,强调业务优先、边界清晰、事件解耦等核心原则,实现高内聚低耦合的可扩展架构。该方法适用于电商等复杂业务流程的建模需求。

2025-11-18 10:00:00 42

原创 SQL 极简之道:如何优雅实现“优先取 add,其次取 delete 最新记录”

本文分析了SQL中处理"带优先级的最新记录"问题的多种解法。从暴力子查询、窗口函数到黑客技巧,最终推荐使用聚合+CASE+COALESCE的优雅方案。该方法通过优先级判断+聚合回填模式,在简洁性、可读性、健壮性和扩展性上表现优异。文中详细对比了各方案优劣,指出真正的SQL优雅在于逻辑贴近业务本质,而非单纯追求代码简短,并展示了如何扩展该模式处理多优先级状态。

2025-11-17 12:00:00 1579

原创 用领域驱动设计(DDD)构建业务对齐的数仓数据模型

本文探讨将领域驱动设计(DDD)应用于数据仓库模型构建的方法。通过战略DDD划分主题域对应业务限界上下文,用战术DDD的聚合根定义数据入口,实体和值对象封装明细层数据,领域服务实现业务规则计算。DDD方法能有效解决传统数仓的业务脱节、数据不一致和扩展性差三大痛点:1)主题域划分确保数仓与业务对齐;2)领域服务保证计算逻辑一致性;3)聚合根设计支持弹性扩展。实践要点包括:聚合根需兼顾分析需求、值对象采用快照保存、领域服务应可复用。最终实现业务语义一致、分析逻辑可复用、扩展性强的现代数据仓库。

2025-11-17 10:00:00 41

原创 深入理解 SQL 中的 IN、NOT IN 与关联操作(JOIN):语义、陷阱与性能优化指南

SQL查询中的IN、NOTIN与JOIN操作对比与优化指南 摘要: 本文系统分析了SQL中IN/NOTIN与JOIN操作的异同,重点揭示了NOTIN在处理NULL值时的致命缺陷。文章指出,IN适用于存在性判断,JOIN适合关联数据获取,而NOTIN因NULL值会导致意外空结果集,推荐使用NOT EXISTS或LEFT JOIN...ISNULL替代。通过电商、半导体制造等实际场景,展示了不同操作的选择策略,并提供了性能优化建议,包括索引设计、执行计划监控等。最后给出了明确的决策流程图,帮助开发者在不同场景下

2025-11-14 12:00:00 38

原创 技术实战:基于 RFM 模型识别低价值用户并追踪其最后一次下单餐厅

摘要:本文介绍基于SQL的RFM客户价值分析方法,通过Recency(最近消费)、Frequency(消费频次)和Monetary(消费金额)三个维度评估用户价值。文章详细阐述了从数据准备、RFM指标计算到得分的完整SQL实现过程,包括窗口函数NTILE()的使用和数据分组策略。分析结果显示,RFM总分≤4分的低价值用户具有消费间隔长、频次低、金额低的特点,建议通过优惠券、精准营销等挽留策略提高用户留存。该方法可应用于电商、会员服务等多个领域,为制定客户关系管理策略提供数据支持。

2025-11-13 12:00:00 291

原创 SQL道与术:行云流水间的有无相生

SQL中的行列转换艺术揭示了数据处理的辩证思维。通过CASE语句可实现行转列,UNION ALL则完成列转行,展现数据的流动本质。SQL还能"无中生有"生成虚拟序列,构建维度表;又能通过DISTINCT、WHERE和NOT EXISTS"化有为无"过滤数据。其核心在于理解数据是可变形态的集合,通过聚合、分解、连接等操作实现灵活转换。优秀的SQL如同诗歌,以简洁代码表达丰富含义,掌握这种"有无相生"的辩证思维,方能在数据世界游刃有余。

2025-11-12 12:00:00 816

原创 如何从多源业务表对商家进行综合评估?

本文探讨了电商平台如何构建商家健康度评估模型。通过分析销售、退款、满意度等异构业务数据,提出分层聚合+主维对齐的建模方法,避免笛卡尔积陷阱导致指标失真。文章详细介绍了SQL实现方案,强调先按商家ID聚合再关联的正确流程,并对比常见错误写法。最后指出数据分析本质是"先逻辑、后代码"的建模思维,强调指标定义、数据探查和工程实现的系统性。

2025-11-12 11:00:00 43

原创 滴滴网约车数分笔试 SQL 题:用户分层与取消率 Top 用户挖掘

本文解析了滴滴网约车业务线的两道SQL笔试题:1)对9月份用户按完成订单数分层统计(A层>10单,B层6-10单,C层3-5单,D层1单),需注意完成订单定义(cancel_time为NULL);2)筛选9月份取消率最高的前1000名用户(要求发单数>5单),关键点在于正确计算取消率和HAVING条件应用。解题过程展示了时间过滤、条件聚合、CASE分层和TopN查询等核心SQL技巧,贴近实际业务中的用户行为分析和异常识别需求。

2025-11-10 12:00:00 196

原创 数仓开发中口径发散如何治理?

本文探讨数据仓库中指标口径不一致问题的根源及解决方案。问题的本质在于数据处理环节(表选择、关联、过滤、计算)分散在不同层级和脚本中,导致口径标准混乱。解决方案是通过分层职责固化:ODS层仅存储原始数据,DWD层完成关联和基础过滤,DWS层处理聚合计算,ADS层仅做展示调整。同时建立指标字典将业务定义与技术逻辑对应,并配套开发流程约束和测试验证机制。这种规范化的口径收敛方法能从根本上提升数据可信度,使数据真正成为业务决策依据,而非争议源头。

2025-11-10 11:00:00 41

原创 创作者粉丝增长分析实战 | 腾讯

本文探讨了使用SQL窗口函数分析创作者月度粉丝增长情况的方法。通过三层嵌套查询结构:行为数据转换、月度数据聚合和累计计算,实现粉丝增长率和累计粉丝量的统计分析。技术亮点包括窗口函数的巧妙应用(SUM() OVER()实现累计求和)、异常数据处理策略(使用-100000标识异常值)和时间维度处理方法(LEFT截取年月)。该方案可支持创作者成长分析、内容策略优化等业务场景,具有逻辑清晰、执行高效的特点,可扩展至类似时序数据分析需求。

2025-11-07 12:00:00 35

原创 如何构建数仓健康评估体系?有哪些评估指标?| 阿里

本文系统介绍了数据仓库健康评估体系的构建方法。该体系通过六大核心维度(业务价值、数据质量、架构设计、性能效率、运维管理、成本效益)和15-20个关键指标,采用维度加权法计算健康分,将抽象的健康状态量化。具体构建步骤包括:明确评估目标与边界、选择核心指标、定义健康分档规则、计算总健康分并建立闭环机制。评估体系强调根据不同业务场景调整权重,并实现"发现问题→定位根因→优化改进"的闭环管理。最终目标是推动数仓从满足当前需求向支撑未来业务演进,实现数据可信、架构可持续和业务价值最大化。

2025-11-06 12:00:00 51

原创 CSIG腾讯云 数据工程 一面

摘要:文章围绕数据仓库设计与Spark性能优化展开,探讨了数仓分层设计逻辑、DWS层维度指标选取原则、事实表必要性等问题。在Spark方面,分析了影响Stage/Task数量的因素,并提供了小文件优化方案和内存配置计算方法。同时收录了数仓实战经验,包括滴滴整合案例、滚存表优化技巧等,以及SQL面试题解答和分层设计评估方法。最后讨论了技术债务处理策略和临时取数需求应对方案,为数据工程师提供全面的技术参考。

2025-11-05 21:27:15 340

原创 工作日用车高峰时段数据分析 | 滴滴

摘要:本文通过SQL分析工作日共享出行平台的用车数据,将时段划分为早高峰、工作时间、晚高峰和休息时间,统计用车次数、平均等待时间和派单时间。结果显示早高峰需求最集中且等待时间最长,建议增加运力、优化派单算法和引导用户预约。分析方法可为时间敏感性服务提供运营优化参考,后续可结合天气等维度深化分析。

2025-11-05 11:00:00 195

原创 滴滴金融数仓面试题(一面&二面)

本文整理了滴滴金融数仓岗位面试的核心问题,涵盖技术考察和业务评估两大部分。技术方面重点考察数仓建设能力(分层设计、模型融合、数据一致性保障)、Spark优化(执行流程、数据倾斜处理)、数据治理经验;业务评估侧重项目经验(需求管理、交付时效)、量化指标(数仓质量评估)及团队协作能力。特别关注候选人在离线/实时数仓的实践经验、技术问题解决能力(如SQL优化、性能调优)以及从0到1搭建数仓的系统性思维。面试问题设置体现了对数据架构设计、工程实施和业务价值落地的全面考察。

2025-10-31 11:00:00 360

原创 数据仓库设计的核心:数据域的构建方法与实战

本文系统阐述了数据仓库建设中数据域的定义、构建方法及实践应用。数据域作为组织数据模型的核心单元,通过对关联业务过程和实体的归类抽象,实现数据结构化与标准化。构建方法包括业务调研、明确业务过程、声明粒度、识别维度和事实五个步骤。文章以电商平台为例,划分会员、商品、交易等七大域,详细说明各域的业务过程、维度和事实指标。数据域思想贯穿于数据仓库分层架构(DWD、DWS、ADS),指导数据从明细到汇总的加工过程。合理的域划分是构建可扩展、易维护数据仓库的基础,能有效支撑业务决策。

2025-10-30 12:00:00 1177

原创 数仓是如何进行整合的?

文章摘要:数据仓库整合的核心是通过标准化指标、维度和模型,将分散数据转化为可复用的分析资产。具体步骤包括:1)梳理业务域和过程,明确边界;2)统一指标定义和口径,消除歧义;3)规范维度层级和取值,统一分析视角;4)构建业务矩阵,连接业务-维度-指标;5)设计明细模型(原子数据)和汇总模型(聚合数据);6)建立持续治理机制应对业务变化。整合本质是让数据可理解、可复用,从"数据存储"升级为"决策引擎"。

2025-10-30 08:15:00 51

原创 什么是DIKW金字塔模型?

DIKW金字塔模型(数据-信息-知识-智慧)是一个经典的信息价值分层框架。该模型从底层的原始数据(Data)开始,通过结构化处理形成信息(Information),再经过归纳分析转化为知识(Knowledge),最终通过实践反思升华为智慧(Wisdom)。每一层级都需要特定的加工动作实现转化:数据加解释、信息找关联、知识做决策。模型揭示了信息处理的本质是价值递增过程,强调必须逐层转化而不能跳跃。常见误区包括混淆数据与信息、知识与智慧的区别。该框架对数据分析、学习成长和知识管理都具有重要指导意义。

2025-10-29 12:00:00 553

原创 设计DWS层时如何选择纬度,产生对应的指标?

摘要: DWS层设计需围绕业务需求选择维度和指标。维度是分析视角(如时间、地域、商品),需满足核心业务、匹配用户习惯、平衡数据粒度(最小可分析粒度)、与指标强相关,并控制技术复杂度(避免高基数组合)。指标是量化结果(如销售额、转化率),需从业务问题推导,明确聚合方式(sum/count/ratio)和业务含义。实践中,电商DWS层常采用星型模型,核心维度(时间+商品+地域+渠道)对应核心指标(销售额、订单量等)。避免维度过多或过粗,需持续迭代优化,确保数据高效支撑分析需求。

2025-10-29 10:00:00 39

原创 如何利用滚存表优化数仓中的累计指标?

摘要: 滚存表(Rolling Table)通过预计算+滚动更新的方式存储高频使用的累计/滚动指标(如30天销售额、YTD收入),解决明细表直接计算的性能瓶颈与口径不一致问题。其核心价值在于提升查询效率(毫秒级响应)、统一业务口径,并支持滑动窗口(如近7天)或累计周期(如MTD)的灵活分析。实现方式分为全量重算(逻辑简单,适合小数据量)和增量维护(效率高,适合大数据量)。典型应用包括电商复购率、零售月累计销售额等场景。需注意指标口径定义、历史数据回溯、元数据管理及存储成本控制,以平衡计算与存储的关系。滚存表

2025-10-28 12:00:00 42

原创 数仓面试必知必会100题 | 建议关注、收藏、点赞 以免找不到

数据仓库技术栈与核心能力摘要 本文系统梳理了数仓岗位所需的核心技术能力和知识体系。技术栈方面涵盖Hadoop生态(HDFS/YARN)、Hive(分区/分桶优化)、SparkSQL及实时处理工具(Flink/Kafka);ETL工具链包括Sqoop/Flume/DataX;建模方法论重点解析维度建模(星型/雪花模型)及SCD处理技术。 数仓架构层面,详细阐释了四层模型(ODS原始数据、DWD明细整合、DWS汇总聚合、ADS应用服务)的设计原理,分层解决了数据冗余、性能瓶颈和业务隔离等核心问题。对比传统数据库

2025-10-28 08:30:00 1801

原创 技术债务缠身的老数仓,是先重构还是先业务?

摘要:老数仓面临技术债务与业务需求的冲突时,应通过"业务价值驱动"的渐进式重构策略。决策框架从业务影响度、故障紧急度和投入产出比三个维度量化评估债务优先级,优先解决高价值债务。实施机制包括成立跨部门专项小组、建立闭环流程(识别-评估-消解-验证-复盘)、保障资源投入及纳入KPI考核。最终目标是实现技术债务治理与业务发展的动态平衡,使数仓成为支撑业务增长的"高效数据基础设施"。(149字)

2025-10-24 10:00:00 41

原创 数仓设计的道与术:以《道德经》观数据之治

《道德经》视角下的数据仓库设计之道:本文以道家思想为镜,探讨数据仓库设计的哲学与实践。"道"层面强调尊重数据本真("朴")和系统自运行("无为");"术"层面提出分层设计的阴阳之道("知白守黑")、避免碎片化("大制不割")及轻量ETL("治大国若烹小鲜")。最高明的数仓设计应道术合一,如水利万物而不争,在技术与业务间构建自然、完整、可持续的数据生态。

2025-10-24 10:00:00 1347

原创 字节数仓面试9月份

本文探讨数据仓库建设中的核心问题:1. 数据漂移问题的解决方案及Hive底层原理;2. 数据域划分的必要性(如电商常见的五域划分)及与主题域的关系;3. 数据建模方法对比(星型vs雪花模型)及拉链表技术应用;4. 数据质量保障机制(SLA、指标质疑处理、临时取数流程);5. 数据资产价值评估标准。内容涵盖数据架构设计、模型选择、质量治理等关键环节,解析了实际业务场景中的典型问题及解决方案,为数据仓库建设提供实践指导。

2025-10-23 12:15:00 371

原创 数仓开发中SQL Code Review到底在review什么?

数仓SQL代码审查的核心在于确保SQL适配数仓特性,包括业务逻辑准确性、分层模型合规性、大数据性能稳定性和数据质量可靠性四大维度。审查需重点关注:业务口径一致性、分层边界约束(ODS/DWD/DWS/ADS各层职责)、大数据优化点(分区利用、数据倾斜处理等)以及代码可维护性。通过全链路校验,保障SQL从"能跑"到"跑对、跑快、跑稳、跑久",最终实现业务需求到数仓落地的精准映射与风险防控。

2025-10-23 10:00:00 41

原创 半导体晶圆制造关于设备制程几个核心概念及映射关系

摘要:半导体晶圆制造中的五个核心概念(Lot、Batch、ProcessStep、Recipe、Equipment)存在多层次的映射关系。Lot是生产管理的基本单位,Batch是设备单次处理的物理晶圆集合,ProcessStep代表工艺操作,Recipe是具体执行参数,Equipment是执行工艺的物理设备。从逻辑流看,Lot按工艺流程依次经过制程步骤,在设备上执行对应Recipe;从物理流看,设备每次运行处理一个Batch。这种架构既支持生产调度与追溯,又兼容设备物理限制,是半导体制造管控的基础。

2025-10-22 15:38:21 985

原创 如何评估数仓分层设计的合理性?| 腾讯数据架构

数据仓库分层设计评估应关注业务匹配度、分层清晰度、数据流转效率、复用性和性能优化等维度。核心标准包括:分层数量与业务规模适配(中小业务3层,复杂业务4层);各层职责明确(ODS存原始、DWD做清洗、DWS管汇总、ADS供查询);数据血缘可追溯率达100%;中间层复用率≥60%;查询响应≤5秒。需通过工具监控存储压缩比、批处理超时率等指标,确保新增需求开发周期≤1天,问题定位≤1小时。优化重点包括消除跨层依赖、合并重复加工、提升DWS指标覆盖率至80%以上,最终实现快速响应、质量可靠、成本可控的目标。

2025-10-22 10:00:00 50

原创 面试提问:业务对指标结果质疑时,你会怎么处理?| 快手

摘要:本文系统梳理了应对业务方数据指标质疑的六步排查法:1)对齐业务预期与指标定义,消除认知差;2)核查指标计算规则与口径;3)验证数据采集、计算、存储全链路;4)通过基准数据交叉验证;5)排查业务场景特殊因素;6)用业务语言闭环反馈。强调数据治理要建立"指标字典"和监控机制,核心思路是将技术验证与业务逻辑结合,最终实现"用业务常识解释数据异常"。该方法适用于互联网/数据岗位面试场景,能体现结构化思维和业务数据融合能力。(149字)

2025-10-21 11:00:00 531

原创 数据质量治理的成效是如何来量化?

本文提出数据质量治理的量化框架,从数据指标和业务价值两个层面构建评估体系。在基础数据质量指标方面,围绕准确性、完整性等六大维度设计具体计算公式;在业务价值指标方面,针对不同场景建立治理效果与业务成果的关联分析。实施路径包括明确目标指标、建立基准、工具支撑、归因分析和持续优化五个步骤,并指出关联业务价值、工具缺失等主要挑战。最终强调量化目标在于实现数据质量与业务需求同频共振,持续创造价值。(148字)

2025-10-20 12:00:00 46

原创 面试提问:如果业务方临时要一个新指标,你会如何处理

摘要:本文介绍了处理临时指标需求的标准化流程,强调"先注册、再开发、后使用"的原则。具体步骤包括:1)明确业务需求与指标口径;2)检查指标复用性;3)走指标注册与评审流程;4)技术实现与上线;5)后续治理。通过案例说明规范流程可避免重复开发并提升数据一致性,同时指出直接提供SQL结果等错误做法。最后强调临时需求仍需规范处理,以保障数据质量与长期效率。

2025-10-20 10:00:00 165

原创 数仓建模:业务驱动or数据驱动?

数仓建模需要平衡业务驱动与数据驱动两种模式。业务驱动以业务流程为核心,构建结构化模型解决当前需求;数据驱动则挖掘多源数据关联,发现潜在业务价值。单一模式存在局限:纯业务驱动易固化难扩展,纯数据驱动易脱离实际业务。最佳实践是"业务驱动搭框架+数据驱动做迭代":先用业务需求建立核心模型框架,再通过数据关联分析进行扩展优化。成熟业务宜侧重业务驱动,创新业务可优先数据驱动,但最终目标都是为业务创造价值。数仓本质是业务价值的数字化载体,建模方法需适配业务阶段特点。

2025-10-17 10:00:00 45

原创 面试提问:每天更新但没人用的数据表是否算数据资产?

摘要:判断"每天更新但没人用"的数据表是否属于数据资产,需综合考虑其价值维度和使用场景。若数据表具有合规价值(如满足监管要求)、支撑价值(作为其他数据的基础)或潜在用途(未来可能使用),即使当前无人使用,仍应视为数据资产。反之,若数据表无任何价值且持续消耗资源,则属于数据负债,应进行清理。核心标准在于数据是否能为企业带来现实或可预期的经济利益,而非仅基于当前使用情况。企业应建立动态评估机制,定期审查数据资产的价值状态。

2025-10-16 10:00:00 48

原创 字节数开一面

【大数据面试要点摘录】1.5小时技术面涵盖10个核心问题:数据倾斜处理、Spark阶段划分、Hive表区别、HDFS小文件问题及数仓分层理论。包含3道SQL实操题(时间范围查询、连续登录判断)和1道算法题(有序数组元素计数)。延伸问题涉及ADS层SLA保障、宽表设计(含业务粒度整合、多维指标统计)、Hive表数据一致性校验及交叉维度解决方案等高级场景。面试官特别关注宽表字段构成、分区策略等实战细节,并提供DolphinScheduler双表切换等工程实现方案。

2025-10-15 22:46:52 561

原创 面试提问:ADS层SLA如何保障?

摘要 针对ADS层表就绪时间因数据量突增而延迟的问题,本文提出系统性解决方案:明确SLA三重定义(时间、质量、性能),通过全链路依赖建模识别关键节点;构建覆盖时间、数据、资源、质量的监控体系,设置三级预警机制;实施弹性任务调度策略,包括依赖管理、优先级调度、动态资源分配和并行容错机制。最终实现从被动响应到主动可控的转变,保障数据及时交付业务需求。核心在于量化SLA指标、提前预警干预、资源弹性伸缩和建立容错兜底机制。

2025-10-15 10:00:00 460

原创 数据仓库面试—辉致医药

本文分享了辉致医药数据仓库岗位的三轮面试内容。技术面试重点考察了SQL能力(销售占比计算、连续月份分析)、数仓开发流程、维度建模(星型/雪花模型)和ETL理解;管理面试关注项目执行、团队协作和问题处理能力;总监面则侧重项目经验和个人发展。文章还附带了多个典型数仓面试题,包括宽表设计、数据一致性校验、维度管理等实战问题,为数据仓库从业者提供了全面的面试准备参考。

2025-10-14 12:00:00 394

原创 数仓宽表灵魂提问:如何将不同业务粒度的事实数据与维度信息整合到一张宽表中?

多事实粒度宽表设计:提升数据分析效率的关键策略 多事实粒度宽表通过整合不同粒度业务数据和维度信息,有效解决了传统数据模型在跨粒度分析、多表关联和维度更新方面的痛点。设计核心在于以主粒度(如订单ID)为锚点,通过聚合、窗口计算和维度关联三种策略实现多粒度对齐,并扁平化高频维度字段。电商案例展示了如何将用户、商品等多粒度数据整合到订单粒度宽表中,显著提升查询效率。设计需注意避免过度冗余、处理缓慢变化维度,并采用列存、分区等技术优化性能。该设计通过合理冗余换取查询效率,成为支撑高效BI分析的核心工具。

2025-10-14 10:00:00 284

原创 读者提问:如何在一张宽表上做出不同业务过程、统计不同粒度的指标?

订单支付率下降分析的数据仓库设计 针对订单支付率下降的分析需求,建议采用三层DWS宽表设计方案: 日期粒度宽表(dws_order_metrics_daily): 按日统计核心指标(下单率、支付率) 支持按渠道、用户等级等维度拆分分析 解决指标粒度不一致问题(用户数/订单数) 用户粒度宽表(dws_user_behavior_daily): 记录用户全链路行为数据 识别低质用户特征(如新用户、特定渠道) 分析用户级别的转化率差异 订单粒度宽表(dws_order_full): 包含三个业务过程完整信息 支持

2025-10-13 10:00:00 48

苏宁数据中台建设与技术实践.pdf【大数据平台】基于统一维度与指标体系的数据中台架构设计:企业级数据治理与服务化实践

内容概要:本文系统介绍了苏宁数据中台的建设背景、总体架构及关键技术实践,重点阐述了数据仓库、统一维度库和数据服务三大核心模块的构建方法。针对数据孤岛、开发成本高、指标与维度孤立等痛点,苏宁通过构建离线与实时融合的数据仓库,建立统一维度库实现维度标准化管理,并打造统一数据服务平台提供高效、稳定的指标与数据服务,从而提升数据资产的整合能力与业务支撑效率。文章还展示了数仓分层模型、实时计算架构、维度服务架构及指标管理体系的设计思路,并展望了未来在智能治理、流批一体、模型自动化等方面的发展方向。; 适合人群:具备一定数据工程或大数据技术基础,从事数据平台建设、数据治理、数据产品设计等相关工作的技术人员和架构师,尤其适合企业中参与数据中台建设的中高级研发与数据管理人员。; 使用场景及目标:①了解大型零售企业在复杂业务场景下的数据中台整体架构设计;②学习如何解决数据孤岛、指标不一致、维度混乱等常见问题;③掌握统一维度库、指标服务体系、OLAP引擎集成等关键组件的实现路径;④为自身企业数据中台规划与落地提供参考案例和实践指导。; 阅读建议:建议结合架构图与实际业务场景对照理解,重点关注各模块之间的协同关系与设计原则,在学习过程中思考如何将文中方法论适配到本地业务环境中,并关注未来智能化与自动化方向的技术演进趋势。

2025-10-28

什么是DIKW金字塔模型?.md

什么是DIKW金字塔模型?.md

2025-10-28

基于Python的Hive建表DDL语句自动化生成脚本.md

基于Python的Hive建表DDL语句自动化生成脚本.md

2025-09-11

数据分析精选练习+-上(50题).doc

数据分析精选练习+-上(50题).doc

2025-09-05

知识产权专利基础知识与分析方法:技术布局、法律状态及产业化应用全流程解析

专利基础知识、分析方法与思路.pdf内容概要:本文系统介绍了专利的基础知识、分类体系、法律状态、专利引文、优先权、同族专利等核心概念,并详细阐述了专利分析的全流程,包括前期准备、数据采集、分析方法、报告撰写与成果应用。重点讲解了专利检索策略构建、数据加工处理及多种分析方法(如统计分析、矩阵分析、引用分析、技术功效分析、聚类分析和组合分析)的应用,旨在通过专利信息挖掘技术发展趋势、竞争格局、研发重点及市场战略。; 适合人群:从事科研管理、知识产权分析、技术创新研究及相关领域的专业人员,特别是科研院所、高校及企业中的技术情报分析人员和管理人员。; 使用场景及目标:①开展技术领域专利现状与竞争格局分析;②识别核心技术、空白点与潜在风险;③支持科研立项、技术布局与成果转化决策;④评估机构或个人的技术创新能力与专利质量。; 阅读建议:建议结合实际案例进行实践操作,重点关注检索策略构建与数据分析方法的灵活运用,同时注意不同国家专利制度差异对分析结果的影响,确保分析结论的科学性与实用性。

2025-09-05

企业元数据管理-元数据梳理方法与实践.pptx

企业元数据管理-元数据梳理方法与实践.pptx

2025-09-05

企业统一数据归档存储解决方案(PPT).pptx

企业统一数据归档存储解决方案(PPT).pptx

2025-09-05

企业数字化转型智慧中台(数据中台、业务中台、技术中台)方案.pptx

企业数字化转型智慧中台(数据中台、业务中台、技术中台)方案.pptx

2025-09-05

大数据可视化数据治理平台、大数据可视化支撑平台建设方案.pptx

大数据可视化数据治理平台、大数据可视化支撑平台建设方案.pptx

2025-09-05

物流行业基于多维度数据分析的管理优化模型:解决数据匮乏与决策分歧的综合物流管控系统设计

内容概要:本文以盛丰物流公司为例,深入分析综合物流行业普遍存在的四大管理问题:数据匮乏、利润口径不一、成本分摊不清、管理目标模糊。针对这些问题,文章提出通过运输、结算、经营三大维度的数据分析模型,构建货物跟踪与调度、应收账款监控、单票毛利分析及管理报表体系,实现对物流全过程的可视化管控。通过引入数据分析技术,将原本依赖个人经验的管理模式转化为可复制、可量化的系统化管理,显著提升了运输交付效

2025-09-05

案例篇之商品分析.pdf

内容概要:本文通过一个零售集团毛利额增速下降的案例,展示了如何利用数据分析手段从全局视角定位并解决问题。文章详细介绍了使用FineBI工具进行数据准备、关联、加工及可视化探索的全过程,逐步分析集团总体销售趋势、区域门店毛利率、异常品类商品及具体异常订单,最终发现长沙梅溪湖店在七夕节期间德芙巧克力存在大量异常订单,疑似员工套现行为。该案例强调了数据分析师在跨部门协作中以数据驱动决策的重要性。; 适合人群:具备一定数据分析基础,从事零售、电商、运营、产品或商业分析等相关岗位的从业者,以及希望提升业务洞察与问题解决能力的职场人士。; 使用场景及目标:①学习如何系统性地通过数据分析定位业务问题;②掌握BI工具(如FineBI)在实际业务中的应用流程,包括数据关联、自助建模、可视化分析与联动下钻;③理解零售行业中毛利率异常的分析路径与排查方法。; 阅读建议:建议结合实际业务场景边学边练,尝试使用类似BI工具复现分析流程,重点关注问题拆解逻辑、指标构建思路以及多维度下钻分析技巧,提升从业务问题到数据验证的闭环能力。

2025-09-05

【金融数据分析】基于FineBI的五大分析模型构建:银行风险、权益、资产负债与A股走势可视化决策系统设计

内容概要:本文以金融行业为背景,深入探讨了其在数据应用方面面临的挑战与瓶颈,包括数据资产管理水平低、技术与业务融合难度大、顶层设计不完善等问题。在此基础上,提出构建完整的金融数据分析架构,并结合国内主流工具FineBI,从行长综合分析、风险分析、权益分析、资产负债分析及A股走势分析五个维度,系统性地建立了适用于金融行业的数据分析模型。通过数据驾驶舱、风险监控看板、权

2025-09-05

爱默生PCB设计规范.pdf

爱默生PCB设计规范.pdf

2025-09-05

上海校区大数据企业面试真题V1.3.docx【大数据技术】基于Flink的实时数仓架构设计与优化:企业级流处理系统在精准一次消费与状态管理中的实践应用

上海校区大数据企业面试真题V1.3.docx内容概要:该文档为《上海校区大数据企业面试真题V1.3.docx》,汇总了来自米哈游、美团、华为、字节跳动等数十家企业的面试题目,涵盖大数据技术栈中的核心组件与概念,包括Flink、Spark、Kafka、Hive、HBase、Redis、ClickHouse等。文档重点聚焦于实时计算与离线数仓两大方向,涉及Flink的Checkpoint机制、状态管理、反压处理、时间语义、Watermark、双流Join、非Barrier对齐等高级特性;Spark的内存管理、Shuffle机制、任务调度与优化;Kafka的消息可靠性、分区策略、ISR机制;以及数仓建模中的分层设计、拉链表、维度建模、数据质量监控等实践问题。同时包含大量SQL与编程题,考察候选人对算法、数据结构及实际业务场景的解决能

2025-09-05

企业数字化转型方案:企业数据中台与企业大数据发展蓝图方案PPT.pptx

企业数字化转型方案:企业数据中台与企业大数据发展蓝图方案PPT.pptx

2025-09-05

数据分析基于FineBI的招聘市场可视化分析:城市分布、薪酬水平与工作经验关联性研究

内容概要:本文通过爬取智联招聘平台5000条数据分析岗位的招聘信息,利用FineBI工具对数据进行清洗、加工与可视化分析,探讨了数据分析师岗位在不同城市的需求分布、薪资水平及工作经验对薪酬的影响。分析结果显示,北

2025-09-05

XX集团主数据管理MDM系统规划方案(PPT).pptx

XX集团主数据管理MDM系统规划方案(PPT).pptx

2025-09-05

【嵌入式系统】基于STM32的硬件接口与实时操作系统关键技术解析:GPIO、UART、I2C、SPI、CAN、DMA等外设驱动及uCOS-II/III任务调度、内存管理、中断处理综合应用

内容概要:本文系统总结了STM32嵌入式开发中的核心知识点,涵盖STM32F1与F4系列的差异、启动流程、GPIO工作模式、常用通信协议(UART、I2C、SPI、CAN)的配置与特点、DMA数据传输、中断机制、时钟系统、ADC功能、低功耗模式、RTOS任务管理与通信机制(如uCOSII/III与FreeRTOS对比)、任务状态与调度、内存管理、HardFault异常处理、定时器应用、优先级处理、

2025-09-05

【嵌入式系统】大厂面试全真模拟100题:涵盖基础开发、RTOS、通信协议与系统集成技术解析

内容概要:本文档整理了100道大厂嵌入式开发岗位的全真模拟面试题,涵盖嵌入式系统的基础知识、操作系统、处理器架构、外设驱动、通信协议、存储器管理、硬件设计、多媒体处理、调试排错、编码开发及系统集成等多个技术

2025-09-05

【服装电商数据分析】基于人货场模型的关键指标体系构建:商品终端顾客员工四维运营优化系统设计

内容概要:本文围绕服装电商的数据分析体系展开,重点介绍了商品、终端、顾客、员工四大业务主体的指标管理框架,即“人货场”分析模型。详细阐述了各模块的核心分析内容与关键指标,如商品管理中的售

2025-09-05

面对复杂业务(如电商的下单-支付-物流全链路),你会如何拆分数据模型?.md

面对复杂业务(如电商的下单-支付-物流全链路),你会如何拆分数据模型?.md

2025-11-17

华为智慧森林防火监测预警解决方案 (1).pptx

华为智慧森林防火监测预警解决方案 (1).pptx

2025-11-10

DeepSeek华为云AI解决方案主打胶片.pptx

DeepSeek华为云AI解决方案主打胶片.pptx

2025-11-10

如何从多源业务表对商家进行综合评估?.md

如何从多源业务表对商家进行综合评估?.md

2025-11-12

技术实战:基于 RFM 模型识别低价值用户并追踪其最后一次下单餐厅.md

技术实战:基于 RFM 模型识别低价值用户并追踪其最后一次下单餐厅.md

2025-11-12

华为数据通信基础知识培训教程.pptx

华为数据通信基础知识培训教程.pptx

2025-11-10

施工企业信息化建设规划方案.doc

施工企业信息化建设规划方案.doc

2025-11-10

44页=麦肯锡IT现状诊断.pptx

44页=麦肯锡IT现状诊断.pptx

2025-11-10

案例华为智慧园区视频监控安防产品解决方案(45页PPT 豪华版).pptx

【案例】华为智慧园区视频监控安防产品解决方案(45页PPT 豪华版).pptx

2025-11-10

IT系统规划方案.doc

IT系统规划方案.doc

2025-11-10

SQL面试提问 :如何计算每个月的订单数量和总金额以及与上个月相比的环比增长率.md

SQL面试提问 :如何计算每个月的订单数量和总金额以及与上个月相比的环比增长率.md

2025-11-10

智能体应用现状、挑战及发展路径综述.md

智能体应用现状、挑战及发展路径综述.md

2025-11-10

数仓晋升答辩:如何对数仓的工作进行总结,凸显价值?.md

数仓晋升答辩:如何对数仓的工作进行总结,凸显价值?.md

2025-11-10

Oracle Grid.ppt

Oracle Grid.ppt

2025-11-10

IBM 信息整合解决方案和应用实践 .ppt

IBM 信息整合解决方案和应用实践 .ppt

2025-11-10

SQL-Oracle-Research Presentation.ppt

SQL_Oracle_Research Presentation.ppt

2025-11-10

SAP Best Practices for SCM(SCM-Whats-New-DE-DE).ppt

SAP Best Practices for SCM(SCM_Whats_New_DE_DE).ppt

2025-11-10

滴滴网约车数分笔试 SQL 题:用户分层与取消率 Top 用户挖掘.md

滴滴网约车数分笔试 SQL 题:用户分层与取消率 Top 用户挖掘.md

2025-11-10

智能制造应用实践分享.pptx

智能制造应用实践分享.pptx

2025-10-28

智能网联汽车数智化转型方案.pptx

智能网联汽车数智化转型方案.pptx

2025-10-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除