数据处理流程概述

原创

于 2019-08-02 15:37:39 发布 · 2.8k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文介绍了数据处理的重要性，特别是数据产品经理在数据流处理过程中的关键作用，包括数据源的整合、清洗，以及数据仓库的概念、分层和元数据管理。数据仓库分为面向主题、集成的、与时间相关的、不可修改的数据集合，常见分层包括ODS、DWD、DWS、ADS和DIM。元数据管理记录数据属性、使用权限和血缘关系，助力数据管理。最后，讨论了离线和实时数据仓库的区别。

数据处理是数据产品经理最为重要的一环，相比最后报表展示、分析报告、数据驱动，这一环往往耗时长、体现价值低，却牵一发而动全身。我们经常会听到，同一个功能数据分析结果截然相反，追溯原因发现在数据处理过程中，存在错误等。

本篇文章将以数据产品的角度来看数据采集后数据流的处理过程；并讲解一丢丢偏技术、但与数据产品产出息息相关的数据仓库。

一. 数据处理过程

数据产品经理的工作中一大部分都是将不可估测的数据转化为可见的报表、有结论意义的分析报告——也就是将数据从各种异构的数据源中、汇总，最终展示为报表、仪表盘、动态数据分析查询、结论性的分析报告等等。

1. 有哪些异构数据源呢？

服务端、客户端用户行为日志
用户的历史信息，定性信息(e.g.性别，职业的用户画像数据)，定量信息(e.g.近30天的某个兴趣倾向程度)
第三方等获取的信息，e.g.爬虫数据、人工整理的数据等等

2. 这信息大都需要二次加工、清洗，生成结构化的数据

脏数据的清洗、整合，e.g.延迟数据的按照发生日归纳；
生成基础性的表，以提高数据的易用性，e.g.用户基础数据、行为数据的基础表；
生成可以直接应用于报表、分析的用户&行为结构化业务应用表；

轻描淡写的2个步骤，却是影响报表展示、分析结论的关键点，也是数据产品经理最需要细心处理的地方。

二. 数据仓库(Data Warehouse)

数据处理过程往往比较模糊，但“异构数据源->结构化的数据表->报表/分析报告”的过程中，我们常见的各种数据库表就是数据仓库的实体，如常见的hive，spark，Oracle等。那在数据产品经理日常数据处理中应该注意哪些数据仓库知识点呢？

数据仓库是这么定义的：数据仓库是

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。