
数仓
文章平均质量分 78
数仓建模理论、流程及脚本
rubyw
Data Analyst
让我们一起愉快地搞数据分析吧!
展开
-
数据仓库及ETL的理论基础
它是一个集成的、主题导向的、时间变化的、非易失性的数据集合,用于支持企业的决策制定过程。在实际应用中,ETL 过程通常是周期性执行的,以保持数据仓库中的数据与源系统中的数据同步。:在抽取的数据基础上进行清洗、转换和整合,以确保数据的一致性和质量。转换的目标是将数据转化为适合存储在数据仓库中的格式,并确保数据的准确性。数据仓库通常包含来自多个源系统的数据,这些数据经过清洗、转换和加载(ETL)的过程,然后存储在数据仓库中。加载的过程需要考虑数据的完整性和一致性,确保数据仓库中的数据是可信赖的。原创 2023-11-21 17:25:13 · 137 阅读 · 0 评论 -
数仓建模过程——写指标
(3)DWS和DWT层的区别:DWS层存放的所有主题对象当天的汇总行为,例如每个地区当天的下单次数,下单金额等,DWT层存放的是所有主题对象的累积行为,例如每个地区最近7天(15天、30天、60天)的下单次数、下单金额等。需要确定的维度就包括:时间维度、地区维度、用户维度。在业务系统中,挑选我们感兴趣的业务线,比如下单业务,支付业务,退款业务,物流业务,一条业务线对应一张事实表。此处的“事实”一词,指的是业务中的度量值(次数、个数、件数、金额,可以进行累加),例如订单金额、下单次数等。原创 2023-06-02 11:14:36 · 185 阅读 · 0 评论