区街社三级数据仓的设计方案-1

原创

已于 2022-05-31 15:44:46 修改 · 796 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#数据仓库 #数据库 #database

于 2022-05-25 11:33:05 首次发布

本文探讨了一个在区县-街道-社区三级构建数据仓库的项目，旨在通过ETL过程持续维护数据更新，并解决数据质量问题。数据仓库包括人口、房屋、企业等主题库，服务于疫情防控、营商环境等多个场景。现状分析中指出数据清洗的重要性及挑战，同时描述了数据仓库的分层设计，包括ODS、DWD、DWS等层次，强调了数据质量在每个层级的角色。后续将详述主题库的具体建设。

一，项目背景

最近要做个数据仓库，以前也参与过类似的项目，根据自己的印象，大概做点设计。这个项目的思路很好理解，就是在基层建立一个数据仓库，实现数据在区县-街道-社区之间的三级贯穿。目前一体化平台有大量的数据，但是只是归集，没有做处理；就相当于给了你一座金矿，但是你不会挖。为了解决这个问题，有两种方法，一是建立一个数据仓库，在其中建设很多主题库，把这些涉及到同一个人的数据都关联聚类起来，再把这些应用到场景里面去，那上层的应用就可以使用这些有价值的数据了。也还有第二种方法，你只要对这些表格很熟悉，设计几个功能齐全的sql，想要的数据都能找到，那问题也都解决了。

建设数据仓库的意义有2点：

1，可以持续维持数据的动态更新，一份表格丢入一体化以后，会自动完成抽取-清洗-加载（ETL）的过程，这样可以持续保持数据的鲜活。

2，换个管理员，也能轻松接手。

项目基本的建设内容分为2块：

1，数据仓，标准的数据仓库，设置人口、房屋、企业、事件、物联网设备、统一地址等基础信息主题库。建立一些场景，疫情防控，共同富裕，智能亚运、信用体系、营商环境、基层减负、住房保障一类的。

2，区街社，其实就是增加一个地址字段，说明这条数据是属于哪个街道哪个社区的。从现实意义上看，价值比较大；从技术角度看，没难度，也不需要区分每个街道和社区的子库。

图1 数据仓库架构图

二，现状

1，数据来源都是一体化平台，几百个表格，但是其

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。