doit数据运营系统项目书
本说明书只对整个项目的框架进行梳理,对于一些词汇不进行详细的解释,如果要深入研究可联系博主获得更详细的资料,或者自行百度。
项目背景介绍
数据运营平台的建设是为了解决公司 营销分析断层、产品迭代无法量化、用户运营不精准、全局运营指标监控不实时等问题。
需求总览:流量域分析
基础数据分析
整体概况、用户获取、活跃与留存、事件转化、用户特征
基础数据分析指标概览
整体概况
产品整体的使用情况,包括用户量、访问情况、留存等,帮助对产品整体指标有一个大致的了解
用户获取
访问渠道信息、版本数据信息
活跃与留存
访问流量、用户留存
事件转化
各类关键事件(如收藏、分享、转发等),发生次数、人数以及分布情况
收益类事件转化
用户特征
访问省份、城市、性别 、操作系统、新老用户等分布以及占比
进阶用户行为分析
漏斗分析
留存分析
分布分析
归因分析
用户路径分析
间隔分析
自定义查询
业务域分析
交易域
购物车分析:
按品类、人群、时段多维度分析
订单GMV分析
GMV:Gross Merchandise Volume :
一定时间段内的成交总额,包括付款和未付款的部分。
按终端、地域、品类对维度分析。
复购分析
按品类、人群、终端、地域等分析
营销域
优惠券分析
团购分析
秒杀限时购分析
其他营销活动
运营活动域
广告运营位分析
拉新注册分析
会员域
整体方案设计
数据收集:
主要数据类别:
用户行为日志数据、业务数据、历史数据、其他第三方数据等
核心处理流程:
数据采集汇聚:
用户行为的数据:前段埋点生成日志数据——数据采集——kafka缓存——Flume采集落地hdfs——日志预处理——保存在hive数仓明细层
业务数据:业务系统增删改数据库,形成数据——Sqoop或DataX数据抽取——落Hive数仓明细层——增量合并处理
数据仓库&OLAP分析平台
模型设计——数仓分层运算——各类数据的输出
需要查询的数据,入库hbase,用pheonix封装(用户画像标签明细,用户行为序列明细)
需要做规范模型分析的,由kylin映射
需要做深入行为分析的,入库clickhouse(或者kudu+impala)
数据服务
固定报表查询:mysql或hbase
规范多维分析:原始数据入库kylin,基于kylin的restapi开发上层OLAP平台
进阶深入用户行为分析:
入库clickhouse(或kudu+impala),基于jdbc,开发上层olap平台
管理辅助系统
Azkaban任务调度系统
Sqoop/dataX业务库数据抽取
Atlas元数据和血缘管理
其他自己研发的系统
数据埋点说明(大数据人员基本了解)
埋点日志数据说明
APP端:
WX小程序:
WEB端:
日志统一格式为JSON
业务数据说明
业务数据,是由业务系统(程序)根据用户的业务操作,在业务系统数据库(比如mysql)中记录下来的重要事务性数据(比如,订单信息,用户注册信息,积分信息,物流信息,商品信息等,通常至少几十张表,业务越丰富,表越多,上百是常事)
订单交易信息表
举例:
oms_order_item
oms_order_operate_history
oms_order_return_apply
oms_order_return_reason
产品信息表:
pms_product
pms_product_attribute
pms_product_category
pms_product_category_attribute_relation
pms_product_full_reduction
等
优惠券信息表
sms_coupon
sms_coupon_history
sms_coupon_product_category_relation
sms_coupon_product_relation
限时购秒杀信息表:flash_promotion
营销广告位信息表:home_advertise
会员信息表:member_
购物车信息表:cart_item
数据建模理论
三范式建模:
第一范式(1NF):每一列都是不可分割的原子数据项
错误示例:
正确示例:
第二范式:在1NF基础上,非码属性必须完全依赖于候选码
第三范式(3NF):在2NF的基础上,任何的非主属性不依赖于其他非主属性
经典建模方法论2:维度建模
事实:现实发生的某件事 维度:衡量事实的一个角度
事实表:记录事实的表;比如,订单表,注册表,购物车,退货表,浏览日志表
维度表:对维度的详细描述信息;比如,地域维表,产品维表,品类维表,栏目维表,时间维表;
事实:浏览日志表 维度:栏目类别,省份,商品种类等
事实+维度组成了单个表的统计内容:
例如 总pageview数,每个栏目的pv数,每个省份的pv数,每个商品品类的pv数
维度建模经典模型
星型模型:
雪花模型
星座模型
项目建模:流量域方案
以Event事件表为中心事实表
以user,页面频道信息,产品信息,活动信息等为关联维表
项目建模:业务域方案
按不同事实主题建设宽表
交易域
营销域
活动域
广告域
会员域
项目建模:画像域方案
用户基本属性标签表
用户订单属性标签表
用户退换货属性标签表
用户购物车属性标签表
用户活跃属性标签表
用户偏好属性标签表
用户属性标签表
基础属性值短期内不会改变,如年龄、性别、手机号归属地、身份证归属地等
本表描述业务系统中用户的基础属性
用户登录活跃标签表
描述用户近期登录时间段、登录时长、登录频次、常登陆地等指标
用户年龄段标签表
用户交互行为标签表
记录用户在平台上每一次操作行为,及该次行为所带来的标签。后续可根据用户的行为标签计算用户的偏好标签,做推荐和营销等活动