数据处理是数据产品经理最为重要的一环,相比最后 报表展示、分析报告、数据驱动,这一环往往耗时长、体现价值低,却牵一发而动全身。我们经常会听到,同一个功能数据分析结果截然相反,追溯原因发现在数据处理过程中,存在错误等。
本篇文章将以数据产品的角度来看数据采集后数据流的处理过程;并讲解一丢丢偏技术、但与数据产品产出息息相关的数据仓库。
一. 数据处理过程
数据产品经理的工作中一大部分都是将不可估测的数据转化为可见的报表、有结论意义的分析报告——也就是将数据从各种异构的数据源中、汇总,最终展示为报表、仪表盘、动态数据分析查询、结论性的分析报告等等。
1. 有哪些异构数据源呢?
- 服务端、客户端用户行为日志
- 用户的历史信息,定性信息(e.g.性别,职业的用户画像数据),定量信息(e.g.近30天的某个兴趣倾向程度)
- 第三方等获取的信息,e.g.爬虫数据、人工整理的数据等等
2. 这信息大都需要二次加工、清洗,生成结构化的数据
- 脏数据的清洗、整合,e.g.延迟数据的按照发生日归纳;
- 生成基础性的表,以提高数据的易用性,e.g.用户基础数据、行为数据的基础表;
- 生成可以直接应用于报表、分析的用户&行为结构化业务应用表;
轻描淡写的2个步骤,却是影响报表展示、分析结论的关键点,也是数据产品经理最需要细心处理的地方。
二. 数据仓库(Data Warehouse)
数据处理过程往往比较模糊,但“异构数据源->结构化的数据表->报表/分析报告”的过