电商数仓—前言

项目流程图

1.数据仓库的概念

  • 数据

     

    • 业务数据 存储在mysql
      • 处理事务过程中产生的数据
      • 例如:登录、下单、支付
    • 用户行为数据 日志文件(以文件形式)
      • 用户与客户端产品交互过程中产生的数据
      • 通过埋点实现:代码埋点(前端/后端)、可视化埋点、全埋点
      • 页面浏览记录、动作记录、曝光记录、启动记录和错误记录

        • 例如:浏览、点击、评论、点赞、收藏
        • 页面浏览记录
          用户信息包括用户ID、设备ID
          时间信息用户跳入页面的时间
          地理位置信息用户浏览页面时所处的地理位置
          设备信息包括设备品牌、设备型号、设备系统
          应用信息指用户访问的应用信息,例如应用版本
          渠道信息指应用的下载渠道
          页面信息用户浏览的页面相关信息,包括页面ID,页面对象
        • 动作记录 
          用户信息包括用户ID、设备ID
          时间信息动作时间
          地理位置信息动作发生时所处的地理位置
          设备信息包括设备品牌、设备型号、设备系统
          应用信息指用户访问的应用信息,例如应用版本
          渠道信息指应用的下载渠道
          动作目标信息动作用户目标对象相关信息,包括对象类型、对象ID

                 对象类型:动作的对象   例如:领优惠券
                 对象ID:例如:三个优惠券的id
        • 曝光记录
          页面向用户展示内容 展示过的是曝光
          用户信息包括用户ID、设备ID
          时间信息曝光时间
          地理位置信息曝光行为发生时所处的地理位置
          设备信息包括设备品牌、设备型号、设备系统
          应用信息指用户访问的应用信息,例如应用版本
          渠道信息指应用的下载渠道
          曝光对象信息曝光对象相关信息,包括对象类型、对象ID
        • 启动记录
          用户信息包括用户ID、设备ID
          时间信息启动时间
          地理位置信息启动时所处的地理位置
          设备信息包括设备品牌、设备型号、设备系统
          应用信息指用户访问的应用信息,例如应用版本
          渠道信息指应用的下载渠道
          启动类型包括图标和推送
          开屏广告信息包括广告ID等信息
        • 错误记录
          错误记录的是用户在使用应用过程中的报错行为,该行为的环境信息主要有用户信息、时间信息、地理位置信息、设备信息、应用信息、渠道信息、以及可能与报错相关的页面信息、动作信息、曝光信息和动作信息。

    • 爬虫数据 项目不做爬虫数据
      • 其他平台的数据(容易触犯法律)
  • 数据处理流程

2.项目需求分析

  • 1.采集平台

    • 用户行为数据采集平台搭建
    • 业务数据采集平台搭建
  • 2.离线需求

    主题子主题指标
    用户主题用户新增活跃统计新增用户
    活跃用户
    用户行为漏斗分析首页浏览人数
    商品详情页浏览人数
    加购人数
    下单人数
    支付人数
    新增下单用户统计新增下单人数
    新增支付成功人数
    最近七日内连续三日下单用户数
    商品主题复购率统计最近30日各品牌复购率
    各品牌商品下单统计各品牌订单数
    各品牌订单人数
    各品类商品交易统计各品类订单数
    各品类订单人数
    购物车存量统计各分类商品购物车存量Top3
    各品牌商品收藏次数Top3
    下单到支付时间间隔平均值
    各省份交易统计各省份订单数
    各省份订单金额
    优惠券主题优惠券使用率统计使用次数
    使用人数

  • 3.实时需求

    主题子主题指标
    流量主题各渠道流量统计当日各渠道独立访客数
    当日各渠道会话总数
    当日各渠道会话平均浏览页面数
    当日各渠道会话平均停留时长
    当日各渠道跳出率
    流量分时统计当日各小时独立访客数
    当日各小时页面浏览数
    当日各小时新访客数
    新老访客流量统计各类访客数
    各类访客页面浏览数
    各类访客平均在线时长
    各类访客平均访问页面数
    关键词统计当日各关键词评分
    用户主题用户变动统计当日回流用户数
    用户新增活跃统计当日新增用户数
    当日活跃用户数
    用户行为漏斗分析当日首页浏览人数
    当日商品详情页浏览人数
    当日加购人数
    当日下单人数
    当日支付成功人数
    新增交易用户统计当日新增下单人数
    当日新增支付成功人数
    商品主题*复购率统计最近 7/30 日截至当前各品牌复购率
    各品牌商品交易统计当日各品牌订单数
    当日各品牌订单人数
    当日各品牌订单金额
    当日各品牌退单数
    当日各品牌退单人数
    各品类商品交易统计当日各品类订单数
    当日各品类订单人数
    当日各品牌订单金额
    当日各品类退单数
    当日各品类退单人数
    各 SPU 商品交易统计当日各 SPU 订单数
    当日各 SPU 订单人数
    当日各 SPU 订单金额
    交易主题交易综合统计当日订单总额
    当日订单数
    当日订单人数
    当日退单数
    当日退单人数
    各省份交易统计当日各省份订单数
    当日各省份订单金额
    优惠券主题优惠券补贴率统计当日优惠券补贴率
    活动主题活动补贴率统计当日活动补贴率

4.项目框架

  • 1.技术选型

    • 数据采集传输: Flume,Kafka DataXMaxwell,Sqoop ,Logstash
    • 数据存储:MySOLHDFSHBase,Redis,MongoDB
    • 数据计算: Hive, SparkFlink,Storm , Tez
    • 数据查询: Presto,Kylin ,Impala, Druid,ClickHouse,Doris
    • 数据可视化:Superset,Echarts,Sugar, QuickBI,DataV
    • 任务调度: DolphinScheduler,Azkaban,Oozie,Airflow
    • 集群监控: ZabbixPrometheus
    • 元数据管理:Atlas
    • 权限管理: Ranger,Sentry

                                                                                               粉色:离线实时公用
                                                                                               蓝色:离线
                                                                                               绿色:实时
                                                                                               黑色:不采用
       

     

  • 2.版本选择

  • 3.测试集群服务器规划​​​​​​​

    服务名称

    服务

    服务器

    hadoop102

    服务器

    hadoop103

    服务器

    hadoop104

    HDFS

    NameNode

    DataNode

    SecondaryNameNode

    Yarn

    NodeManager

    Resourcemanager

    Zookeeper

    Zookeeper Server

    Flume(采集日志)

    Flume

    Kafka

    Kafka

    Flume

    (消费Kafka日志)

    Flume

    Flume

    (消费Kafka业务)

    Flume

    Hive

    MySQL

    MySQL

    DataX

    Spark

    DolphinScheduler

    ApiApplicationServer

    AlertServer

    MasterServer

    WorkerServer

    LoggerServer

    Superset

    Superset

    Flink

    ClickHouse

    Redis

    Hbase

    服务数总计

    20

    11

    12

  • 4.系统数据流程设计

     

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值