Hive实战:电商数据分析平台

1. 项目准备

1.1 需求分析

  1. 数据采集和整合:收集电商平台的交易日志,将其存储到合适的数据库或数据仓库中,并保证数据的准确性、完整性和实时性。
  2. 数据清洗和预处理:对采集到的数据进行清洗、转换和预处理,以确保数据的质量。
  3. 用户行为分析:通过分析交易日志中的用户行为数据,如点击、浏览、购买等,识别用户偏好、购买习惯和潜在的流失因素等。
  4. 销售趋势分析:通过分析销售数据,如销售额、销售渠道等,发现热门商品及其销售趋势,优化库存管理和采购计划。
  5. 交易异常监测:通过分析日志数据,检测异常订单、欺诈行为和支付问题等,提高系统的安全性。
  6. 数据可视化和报告:将分析结果以直观的图表、可视化仪表板和报告的形式展示,帮助决策者更好地理解数据,并做出相应的业务决策。

1.2 数据结构

1.2.1 订单表

字段解释字段名数据类型
订单 IDorder_idstring
订单时间order_timebigint
买家 IDuser_idbigint
商品 IDgoods_idbigint
买家 IPuser_ipstring
收货地址ship_add (shipping address)string
手机号phone_nostring
点击来源click_sourcestring
单点费用click_costfloat
订单完成时间pay_ct (payment completion time)bigint
订单状态pay_status (payment status)string

1.2.2 访客表

字段解释字段名数据类型
访问 IPaccess_ipstring
访问时间access_timebigint
网页跳转时间jump_timebigint
用户 IDuser_idbigint
手机号phone_nostring
商品 IDgoods_idbigint
访问链接access_con (access connection)string
访问事件access_eventstring
点击来源click_sourcestring
单点费用click_costfloat

1.2.3 商品类目表

字段解释字段名数据类型
商品 IDgoods_idbigint
商品名称goods_namestring
作者authorstring
出版社pressstring
出版时间pub_time (published time)bigint
ISBN 编号ISBNfloat
定价pricingfloat
商品售价goods_pricebigint
月销量mon_sales (month sales)string
发货地址del_add (delivery address)string

1.2.4 退款表

字段解释字段名数据类型
订单 IDorder_idbigint
买家 IDuser_idbigint
图书 IDgoods_idbigint
买家 IPuser_ipstring
订单时间order_timebigint
退款时间refund_timebigint
收货地址ship_add (shipping address)string
手机号phone_nostring
运费险fre_ins (freight insurance)string
退款原因refund_reasonstring

1.2.5 物流表

字段解释字段名数据类型
订单 IDorder_idbigint
物流单号log_num (logistics single number)bigint
发货时间del_time (the delivery time)bigint
收货时间rec_time (receiving time)bigint

1.2.6 用户表

字段解释字段名数据类型
用户 IDuser_idbigint
性别genderstring
年龄agebigint
访问时间access_timebigint
最后一次登录时间last_login (last login time)bigint
点击来源click_sourcestring

1.3 准备数据文件

1.3.1 上传数据文件到虚拟机

  • 在slave2节点上执行命令:mkdir /ecdata
    在这里插入图片描述
  • 执行命令:cd /ecdata
    在这里插入图片描述
  • 将6个数据文件上传到/ecdata目录
    在这里插入图片描述
  • 执行命令:ll
    在这里插入图片描述

1.3.2 在HDFS上创建数据目录

  • 执行命令:hdfs dfs -mkdir /ecdata
    在这里插入图片描述

1.3.3 上传数据文件到HDFS目录

  • 执行命令:hdfs dfs -put item.txt /ecdata
    在这里插入图片描述

  • 执行命令:hdfs dfs -put logistics.txt /ecdata
    在这里插入图片描述

  • 执行命令:hdfs dfs -put orders.txt /ecdata
    在这里插入图片描述

  • 执行命令:hdfs dfs -put refund.txt /ecdata
    在这里插入图片描述

  • 执行命令:hdfs dfs -put users.txt /ecdata
    在这里插入图片描述

  • 执行命令:hdfs dfs -put visitors.txt /ecdata
    在这里插入图片描述

1.4 创建数据库

  • 执行命令:create database ecdata;
    在这里插入图片描述
  • 执行命令:use ecdata;,切换到ecdata数据库
    在这里插入图片描述

1.5 创建数据表

1.5.1 创建订单表

  1. 创建订单表
    • 执行语句
      create table orders (
          order_id string,
          order_time bigint,
          user_id bigint,
          goods_id bigint,
          user_ip string,
          ship_add string,
          phone_no string,
          click_source string,
          click_cost float,
          pay_ct bigint,
          pay_status string
      )
      row format delimited
      fields terminated by '\t';
      
      在这里插入图片描述
  2. 向订单表加载数据
    • 执行语句:load data inpath '/ecdata/orders.txt' into table orders;
      在这里插入图片描述
  3. 查看订单表记录
    • 执行语句:select * from orders limit 20;
      在这里插入图片描述

1.5.2 创建访客表

  1. 创建访客表

    • 执行语句
      create table visitors (
          access_ip string,
          access_time bigint,
          jump_time bigint,
          user_id bigint,
          phone_no string,
          goods_id bigint,
          access_con string,
          access_event string,
          click_source string,
          click_cost float
      )
      row format delimited
      fields terminated by '\t';
      
      在这里插入图片描述
  2. 向访客表加载数据

    • 执行语句:load data inpath '/ecdata/visitors.txt' into table visitors;
      在这里插入图片描述
  3. 查看访客表记录

    • 执行语句:select * from visitors limit 20;
      在这里插入图片描述

1.5.3 创建商品类目表

  1. 创建商品类目表

    • 执行语句
      create table item (
          goods_id bigint,
          goods_name string,
          author string,
          press string,
          pub_time bigint,
          isbn float,
          pricing float,
          goods_price bigint,
          mon_sales string,
          del_add string
      )
      row format delimited
      fields terminated by '\t';
      
      在这里插入图片描述
  2. 向商品类目表加载数据

    • 执行语句:load data inpath '/ecdata/item.txt' into table item;
      在这里插入图片描述
  3. 查看商品类目表记录

    • 执行语句:select * from item limit 20;
      在这里插入图片描述

1.5.4 创建退款表

  1. 创建退款表

    • 执行语句
      create table refund (
          order_id bigint,
          user_id bigint,
          goods_id bigint,
          user_ip string,
          order_time bigint,
          refund_time bigint,
          ship_add string,
          phone_no string,
          fre_ins string,
          refund_reason string
      )
      row format delimited
      fields terminated by '\t';
      
      在这里插入图片描述
  2. 向退款表加载数据

    • 执行语句:load data inpath '/ecdata/refund.txt' into table refund;
      在这里插入图片描述
  3. 查看退款表记录

    • 执行语句:select * from refund limit 20;
      在这里插入图片描述

1.5.5 创建物流表

  1. 创建物流表

    • 执行语句
      create table logistics (
          order_id bigint,
          log_num bigint,
          del_time bigint,
          rec_time bigint
      )
      row format delimited
      fields terminated by '\t';
      
      在这里插入图片描述
  2. 向物流表加载数据

    • 执行语句:load data inpath '/ecdata/logistics.txt' into table logistics;
      在这里插入图片描述
  3. 查看物流表记录

    • 执行语句:select * from logistics limit 20;
      在这里插入图片描述

1.5.6 创建用户表

  1. 创建用户表

    • 执行语句
      create table users (
          user_id bigint,
          gender string,
          age bigint,
          access_time bigint,
          last_login bigint,
          click_source string
      )
      row format delimited
      fields terminated by '\t';
      
      在这里插入图片描述
  2. 向用户表加载数据

    • 执行语句:load data inpath '/ecdata/users.txt' into table users;
      在这里插入图片描述
  3. 查看用户表记录

    • 执行语句:select * from users limit 20;
      在这里插入图片描述

2. 项目实现

2.1 总体运营指标

在这里插入图片描述

2.1.1 独立访客数(UV)

  1. 时间维度

    • 执行语句

      select
          from_unixtime(access_time, 'HH') as hour,
          count(distinct user_id) as uv
      from
          visitors
      where
          access_time is not null
      group by
          from_unixtime(access_time, 'HH')
      order by
          hour;
      

      在这里插入图片描述
      在这里插入图片描述

    • 结果说明:该查询按小时统计了独立访客数(UV),结果显示全天各时段均有用户访问,整体分布较均匀。高峰出现在15点(483人)和19点(484人),低谷在20点(382人),表明用户活跃时段集中在下午至晚间,符合典型电商使用习惯。

      小时独立访客数
      00481
      01487
      02453
      03435
      04438
      05454
      06477
      07436
      08470
      09456
      10443
      11431
      12438
      13438
      14439
      15483
      16434
      17453
      18471
      19484
      20382
      21428
      22461
      23422
  2. 地域维度

    • 执行语句

      select
          split(o.ship_add, ' ')[0] as province,
          count(distinct o.user_id) as visitor_count
      from
          orders o
      inner join
          visitors v
          on o.user_id = v.user_id
      where
          o.ship_add is not null
          and o.ship_add != ''
          and split(o.ship_add, ' ')[0] is not null
      group by
          split(o.ship_add, ' ')[0]
      order by
          visitor_count desc;
      

      在这里插入图片描述在这里插入图片描述

    • 结果说明:该查询统计了既访问网站又下单的用户按省份分布的独立访客数,覆盖全国31个省级行政区。用户主要集中在云南(58人)、河北(56人)和黑龙江、浙江等地,直辖市及西部地区用户相对较少,反映活跃用户多分布于人口大省或电商渗透率较高区域。

      省份下单独立访客数
      云南省58
      河北省56
      黑龙江省54
      浙江省53
      广东省52
      辽宁省52
      四川省50
      山西省49
      内蒙古自治区49
      河南省49
      吉林省48
      江苏省48
      湖南省48
      新疆维吾尔自治区46
      广西壮族自治区46
      甘肃省44
      福建省44
      安徽省43
      陕西省43
      山东省42
      西藏自治区41
      江西省40
      贵州省38
      青海省35
      湖北省34
      重庆市31
      海南省27
      宁夏回族自治区25
      天津市16
      北京市15
      上海市14
  3. 渠道维度

    • 执行语句

      select
          click_source as channel,
          count(distinct user_id) as uv
      from
          visitors
      where
          click_source is not null
          and click_source != ''
      group by
          click_source
      order by
          uv desc;
      

      在这里插入图片描述在这里插入图片描述

    • 结果说明:该查询按渠道统计了独立访客数(UV),结果显示“聚划算”引流效果最强(1702人),其次是“淘宝直播”(1397人)和“直通车”(1199人),而“搜索”渠道仅1人。表明促销活动与直播内容是吸引用户访问的主要来源,传统自然搜索占比较低。

      渠道独立访客数
      聚划算1702
      淘宝直播1397
      直通车1199
      淘宝橱窗924
      阿里博客905
      淘宝社区886
      淘宝搜索541
      搜索1

2.1.2 页面访问数(PV)

  1. 时间维度

    • 执行语句

      select
          from_unixtime(access_time, 'HH') as hour,
          count(*) as pv
      from
          visitors
      where
          access_time is not null
      group by
          from_unixtime(access_time, 'HH')
      order by
          hour;
      

      在这里插入图片描述
      在这里插入图片描述

    • 结果说明:该查询按小时统计了页面访问量(PV),结果显示全天各时段均有稳定访问,高峰出现在15点(551次)和19点(538次),低谷在20点(435次)和04点(477次)。整体分布较均衡,无极端波动,表明用户活跃时段覆盖全天,符合典型电商平台的访问规律。

      小时页面访问数
      00531
      01546
      02502
      03480
      04477
      05497
      06518
      07483
      08524
      09523
      10489
      11486
      12491
      13493
      14488
      15551
      16484
      17509
      18528
      19538
      20435
      21479
      22511
      23467
  2. 地域维度

    • 执行语句

      select
          split(o.ship_add, ' ')[0] as province,
          count(*) as pv
      from
          visitors v
      join
          orders o
          on v.user_id = o.user_id
      where
          o.ship_add is not null
          and o.ship_add != ''
          and split(o.ship_add, ' ')[0] is not null
      group by
          split(o.ship_add, ' ')[0]
      order by
          pv desc;
      

      在这里插入图片描述 在这里插入图片描述

    • 结果说明:该查询统计了有下单记录用户的页面访问量(PV)按省份分布情况。结果显示云南省(369)、河北省(357)和浙江省(334)访问量最高,直辖市如上海、北京、天津相对较低,表明活跃用户主要集中在人口大省或电商渗透率较高的地区,整体与用户基数和消费活跃度正相关。

      省份页面访问量
      云南省369
      河北省357
      浙江省334
      黑龙江省333
      辽宁省328
      广东省322
      四川省313
      内蒙古自治区310
      河南省310
      山西省304
      江苏省302
      湖南省300
      吉林省295
      新疆维吾尔自治区287
      广西壮族自治区285
      甘肃省277
      福建省277
      陕西省272
      安徽省268
      山东省260
      江西省249
      西藏自治区249
      贵州省238
      青海省224
      湖北省217
      重庆市191
      海南省170
      宁夏回族自治区155
      天津市100
      北京市96
      上海市90
  3. 渠道维度

    • 执行语句

      select
          click_source as channel,
          count(*) as pv
      from
          visitors
      where
          click_source is not null
          and click_source != ''
      group by
          click_source
      order by
          pv desc;
      

      在这里插入图片描述
      在这里插入图片描述

    • 结果说明:该查询按渠道统计页面访问量(PV),结果显示“聚划算”以3652次访问居首,其次是“淘宝直播”(2374)和“直通车”(1752),传统搜索类渠道如“淘宝搜索”仅642次,“搜索”渠道最低(2次)。说明营销活动和内容直播是当前主要流量来源,用户更倾向于通过促销和互动场景进入平台。

      渠道页面访问数
      聚划算3652
      淘宝直播2374
      直通车1752
      淘宝橱窗1222
      阿里博客1218
      淘宝社区1168
      淘宝搜索642
      搜索2

2.1.3 人均页面访问数(PPV)

  1. 时间维度

    • 执行语句

      select
          from_unixtime(access_time, 'HH') as hour,
          count(*) as pv,
          count(distinct user_id) as uv,
          round(count(*) * 1.0 / count(distinct user_id), 2) as ppv
      from
          visitors
      where
          access_time is not null
      group by
          from_unixtime(access_time, 'HH')
      order by
          hour;
      

      在这里插入图片描述
      在这里插入图片描述

    • 结果说明:该查询按小时计算了人均页面访问数(PPV = PV/UV),结果显示全天 PPV 稳定在 1.09–1.15 之间,用户浏览深度较为均衡。高峰时段如 09 点(1.15)和 15 点(1.14)略高,表明用户在活跃时段停留更久或浏览更多页面,整体用户体验和内容吸引力良好。

      小时页面访问数独立访客数人均页面访问数
      005314811.10
      015464871.12
      025024531.11
      034804351.10
      044774381.09
      054974541.09
      065184771.09
      074834361.11
      085244701.11
      095234561.15
      104894431.10
      114864311.13
      124914381.12
      134934381.13
      144884391.11
      155514831.14
      164844341.12
      175094531.12
      185284711.12
      195384841.11
      204353821.14
      214794281.12
      225114611.11
      234674221.11
  2. 地域维度

    • 执行语句

      select
          t.province,
          sum(t.pv) as total_pv,
          count(distinct t.user_id) as uv,
          round(sum(t.pv) * 1.0 / count(distinct t.user_id), 2) as ppv
      from (
          select
              v.user_id,
              count(*) as pv,
              split(o.ship_add, ' ')[0] as province
          from
              visitors v
          join
              orders o
              on v.user_id = o.user_id
          where
              o.ship_add is not null
              and o.ship_add != ''
              and split(o.ship_add, ' ')[0] is not null
          group by
              v.user_id,
              split(o.ship_add, ' ')[0]
      ) t
      group by
          t.province
      order by
          ppv desc;
      

      在这里插入图片描述
      在这里插入图片描述

    • 结果说明:该查询按省份统计了人均页面访问数(PPV),结果显示各省份 PPV 集中在 6.07–6.63 之间,整体用户浏览深度较高。河南省以 6.63 居首,西藏自治区最低(6.07),但差异不大,表明各地用户活跃度和内容吸引力较为均衡。

      省份页面访问数独立访客数人均页面访问数
      云南省369586.36
      河北省357566.38
      浙江省334536.30
      黑龙江省333546.17
      辽宁省328526.31
      广东省322526.19
      四川省313506.26
      内蒙古自治区310496.33
      河南省310496.33
      山西省304496.20
      江苏省302486.29
      湖南省300486.25
      吉林省295486.15
      新疆维吾尔自治区287466.24
      广西壮族自治区285466.20
      甘肃省277446.29
      福建省277446.29
      陕西省272436.33
      安徽省268436.23
      山东省260426.19
      西藏自治区249416.07
      江西省249406.23
      贵州省238386.26
      青海省224356.40
      湖北省217346.38
      重庆市191316.16
      海南省170276.30
      宁夏回族自治区155256.20
      天津市100166.25
      北京市96156.40
      上海市90146.43
  3. 渠道维度

    • 执行语句

      select
          click_source as channel,
          count(*) as pv,
          count(distinct user_id) as uv,
          round(count(*) * 1.0 / count(distinct user_id), 2) as ppv
      from
          visitors
      where
          click_source is not null
          and click_source != ''
      group by
          click_source
      order by
          pv desc;
      

      在这里插入图片描述
      在这里插入图片描述

    • 结果说明:该查询按渠道统计了PV、UV及人均页面访问数(PPV)。结果显示,“聚划算”引流最强(PV 3652,UV 1702),且PPV达2.15,用户浏览深度最高;“淘宝直播”和“直通车”次之。自然“搜索”渠道虽PPV为2.00,但样本极小(仅1人),参考价值有限,整体体现促销与内容渠道更有效激发用户活跃。

      渠道页面访问数独立访客数人均页面访问数
      聚划算365217022.15
      淘宝直播237413971.70
      直通车175211991.46
      淘宝橱窗12229241.32
      阿里博客12189051.35
      淘宝社区11688861.32
      淘宝搜索6425411.19
      搜索212.00

2.1.4 总订单数量

  1. 时间维度

    • 执行语句

      select
          from_unixtime(order_time, 'HH') as hour,
          count(*) as total_orders
      from
          orders
      where
          order_time is not null
      group by
          from_unixtime(order_time, 'HH')
      order by
          hour;
      

      在这里插入图片描述
      在这里插入图片描述

    • 结果说明:该查询按小时统计了订单总量,结果显示全天订单分布相对平稳,高峰出现在10点和19点(各69单),低谷在11点(37单)。整体呈现“早晚双峰”趋势,符合用户日常购物行为,可为运营排期和库存调度提供数据支持。

      小时订单总量
      0063
      0145
      0258
      0350
      0446
      0551
      0653
      0749
      0852
      0959
      1069
      1137
      1255
      1358
      1447
      1563
      1657
      1761
      1866
      1969
      2047
      2150
      2245
      2356
  2. 地域维度

    • 执行语句

      select
          split(ship_add, ' ')[0] as province,
          count(*) as total_orders
      from
          orders
      where
          ship_add is not null
          and ship_add != ''
          and split(ship_add, ' ')[0] is not null
      group by
          split(ship_add, ' ')[0]
      order by
          total_orders desc;
      

      在这里插入图片描述
      在这里插入图片描述

    • 结果说明:该查询按省份统计了总订单数量,覆盖全国31个省级行政区。订单量最高的为云南省(58单),其次为河北省(56单)、浙江省(55单)等,整体呈现中东部及西南地区订单活跃,直辖市和西北、青藏地区订单相对较少,反映区域消费分布差异。

      省份订单总量
      云南省58
      河北省56
      浙江省55
      黑龙江省54
      广东省53
      辽宁省53
      河南省51
      四川省50
      内蒙古自治区50
      山西省49
      吉林省49
      湖南省49
      江苏省49
      广西壮族自治区47
      新疆维吾尔自治区46
      甘肃省45
      福建省45
      陕西省44
      山东省43
      安徽省43
      西藏自治区41
      江西省40
      贵州省39
      青海省35
      湖北省34
      重庆市31
      海南省27
      宁夏回族自治区25
      天津市16
      北京市15
      上海市14
  3. 渠道维度

    • 执行语句

      select
          v.click_source as channel,
          count(o.order_id) as total_orders
      from
          orders o
      join
          visitors v
          on o.user_id = v.user_id
      where
          v.click_source is not null
          and v.click_source != ''
      group by
          v.click_source
      order by
          total_orders desc;
      

      在这里插入图片描述
      在这里插入图片描述

    • 结果说明:该查询按渠道统计了总订单数量,结果显示“聚划算”贡献最多订单(2450单),其次是“淘宝直播”(1586单)和“直通车”(1192单),而“搜索”仅带来2单。表明促销活动与内容直播是主要转化渠道,自然搜索引流效果较弱。

      渠道订单总量
      聚划算2450
      淘宝直播1586
      直通车1192
      淘宝橱窗873
      阿里博客815
      淘宝社区809
      淘宝搜索459
      搜索2

2.1.5 成交金额

  1. 计算公式

    • 商品交易总额GMV = 销售额 + 取消订单金额 + 拒收订单金额 + 退货订单金额
  2. 执行语句

    select 
        sum(i.goods_price) as gmv_in_yuan
    from 
        orders o
    join 
        item i 
    on 
        o.goods_id = i.goods_id;
    

    在这里插入图片描述

  • 结果说明:该查询计算了所有订单的商品总金额(GMV),结果为 28990 元。代表用户下单的总商品价值,包含待支付、支付失败和支付成功订单,符合 GMV 统计口径。

2.1.6 客单价

  1. 计算公式

    • 客单价 = 销售额 / 购买人数
  2. 执行语句

    select 
        sum(i.goods_price) / count(distinct o.user_id) as avg_order_value
    from 
        orders o
    join 
        item i 
    on 
        o.goods_id = i.goods_id;
    

    在这里插入图片描述

    • 结果说明:该查询计算了客单价,结果为 36.696 元。基于所有下单用户(含待支付、支付失败等)的总商品金额与独立用户数之比,反映平均每位用户的消费水平,符合GMV口径下的客单价定义。

2.1.7 销售毛利

  1. 计算规则:默认商品的利润是原商品定价的60%
  2. 执行语句:select (goods_price - 0.4 * pricing) * mon_sales from item;
    在这里插入图片描述
  • 结果说明:该查询按“商品定价的60%”计算每件商品毛利,并乘以月销量(mon_sales),结果包含正负值,表明部分商品亏损。最高毛利商品贡献约185万元,最低为-881万元,反映热销品未必高利润,需结合成本与销量综合评估。
    在这里插入图片描述

2.1.8 毛利率

  • 执行语句:select (goods_price - 0.4 * pricing) / goods_price from item;
    在这里插入图片描述
  • 结果说明:该查询计算了每件商品的毛利率(goods_price - 0.4×pricing) / goods_price,结果介于-11.270.93之间。正值表示盈利,负值表示成本高于售价,部分商品亏损严重(如-11.27),反映定价策略或成本控制存在问题,需优化商品结构与定价。

2.2 流量类指标

在这里插入图片描述

2.2.1 跳出率

  1. 求跳出用户

    • 执行语句

      select
          access_ip, count(access_event) cnt
      from
          visitors
      where
          access_event = 'launch'
      group by
          access_ip
      having count(access_event) = 1;
      

      在这里插入图片描述
      在这里插入图片描述

    • 结果说明:该查询统计了仅访问过一次“launch”事件的IP地址,共39个唯一IP。说明这些用户首次(且唯一一次)触发了启动行为,可能为新用户或未继续操作的流失用户,可用于分析用户初次使用情况或优化引导流程。

  2. 求跳出用户总数

    • 执行语句
      select
          count(*)
      from (
          select
              access_ip,
              count(access_event) as cnt
          from
              visitors
          where
              access_event = 'launch'
          group by
              access_ip
          having
              count(access_event) = 1
      ) t;
      
      在这里插入图片描述
      在这里插入图片描述
    • 结果说明:查询结果显示,共有39个IP地址仅触发过1次“launch”事件。表明这些用户可能为一次性访问的新用户或未继续使用服务的流失用户,可作为用户留存分析的切入点,用于优化产品引导或激活策略。
  3. 按渠道求总人数

    • 执行语句
      select
          click_source,
          count(access_event) as cnt
      from
          visitors
      where
          access_event = 'launch'
      group by
          click_source;
      
      在这里插入图片描述
    • 结果说明:该查询统计了各来源渠道的启动事件数量,共7个渠道。其中“聚划算”占比最高(541次),其次是“淘宝直播”和“淘宝橱窗”,说明这些渠道是用户进入应用的主要入口,可作为重点运营和推广方向。
  4. 按渠道求跳出率

    • 执行语句

      select
          click_source,
          sum(case when launch_cnt = 1 then 1 else 0 end) as bounce_users,
          count(*) as total_users,
          round(
              sum(case when launch_cnt = 1 then 1 else 0 end) / count(*),
              2
          ) as bounce_rate_percent
      from (
          select
              access_ip,
              click_source,
              count(access_event) as launch_cnt
          from
              visitors
          where
              access_event = 'launch'
          group by
              access_ip,
              click_source
      ) t
      group by
          click_source;
      

      在这里插入图片描述
      在这里插入图片描述

    • 结果说明:查询结果显示各渠道的跳出率,其中“聚划算”最低(27%),用户质量较高;“淘宝搜索”最高(51%),近半用户仅启动一次即流失。整体反映出不同渠道引流用户的参与度差异,建议优化高跳出率渠道的落地体验或内容匹配度。

      渠道跳出用户数总人数跳出率
      淘宝搜索244751%
      淘宝橱窗215240%
      淘宝直播267236%
      淘宝社区265845%
      直通车276840%
      聚划算2810527%
      阿里博客265349%

2.2.2 人均页面访问数

  1. 按渠道求总访问数

    • 执行语句

      select
          click_source,
          count(access_ip) as ip_count
      from
          visitors
      group by
          click_source;
      

      在这里插入图片描述

    • 结果说明:该查询统计了各渠道的独立访问IP数,共8个渠道。其中“聚划算”以3652个IP居首,其次是“淘宝直播”和“淘宝橱窗”,说明这些渠道带来了大量用户流量,是核心引流来源,可作为重点运营与推广方向。

      渠道总页面访问数
      淘宝搜索1685
      淘宝橱窗1820
      淘宝直播2543
      淘宝社区2021
      直通车2378
      聚划算3652
      阿里博客1901
  2. 按渠道求总用户数

    • 执行语句

      select
          click_source,
          count(user_id) as total_users
      from
          users
      group by
          click_source;
      

      在这里插入图片描述

    • 结果说明:该查询统计了各渠道的总用户数,共6个渠道。其中“淘宝直播”以480人最多,其次是“直通车”和“淘宝橱窗”,表明这些渠道带来了较高的用户基数,是核心用户来源,可作为重点运营方向。

      渠道总用户数
      淘宝搜索1685
      淘宝橱窗1820
      淘宝直播2543
      淘宝社区2021
      直通车2378
      聚划算3652
      阿里博客1901
  3. 按渠道求人均页面访问数

    • 执行语句

      select
          u.click_source,
          sum(v.visits) as total_visits,
          count(u.user_id) as total_users,
          round(sum(v.visits) * 1.0 / count(u.user_id), 2) as avg_page_views_per_user
      from (
          select
              user_id,
              count(*) as visits
          from
              visitors
          where
              user_id is not null
          group by
              user_id
      ) v
      join
          users u
      on
          v.user_id = u.user_id
      group by
          u.click_source;
      

      在这里插入图片描述
      在这里插入图片描述

    • 结果说明:查询结果显示各渠道的人均页面访问数均在6.2~6.3之间,差异极小,说明不同渠道用户的活跃度高度一致。尽管“聚划算”总访问量较低,但其用户深度浏览行为与其他渠道相当,可认为各渠道引流用户质量均衡,运营策略可统一优化。

      渠道总页面访问数总用户数人均页面访问数
      淘宝搜索7881266.25
      淘宝橱窗14252256.33
      淘宝直播30194806.29
      淘宝社区15592516.21
      直通车36665856.27
      聚划算15732516.27

2.3 网站销售类指标

在这里插入图片描述

2.4 商品类指标

在这里插入图片描述

2.5 营销类指标

在这里插入图片描述

2.6 物流类指标

在这里插入图片描述

3. 数据展示

3.1 可视化软件简介

  • Tableau 是一款领先的可视化数据分析工具,能够快速连接多种数据源(如 Excel、SQL 数据库、云平台等),通过拖拽式操作实现高效的数据探索与交互式仪表板构建。其核心优势在于强大的可视化能力、实时数据更新和用户友好的界面,无需编程即可生成图表、地图、趋势分析等,广泛应用于商业智能、运营监控与决策支持。Tableau 支持多端共享与协作,助力个人和企业将复杂数据转化为直观洞察,提升数据驱动决策的效率与准确性。

3.2 可视化软件安装

3.2.1 下载Tableau可视化软件

3.2.2 安装Tableau可视化软件

3.3 数据展示

3.3.1 导入数据

3.3.2 独立访客数

3.3.3 页面访问数

3.3.4 人均页面访问数

3.3.5 总订单数量

3.3.6 跳出率

3.3.7 页面访问时长

3.3.8 下单—支付金额转化率

3.3.9 下单—支付买家数转化率

3.3.10 退款金额

3.3.11 出版社图书前10名

3.3.12 出版社销量排行

3.3.13 平均发货时间

通过短时倒谱(Cepstrogram)计算进行时-倒频分析研究(Matlab代码实现)内容概要:本文主要介绍了一项关于短时倒谱(Cepstrogram)计算在时-倒频分析中的研究,并提供了相应的Matlab代码实现。通过短时倒谱分析方法,能够有效提取信号在时间与倒频率域的特征,适用于语音、机械振动、生物医学等领域的信号处理与故障诊断。文中阐述了倒谱分析的基本原理、短时倒谱的计算流程及其在实际工程中的应用价值,展示了如何利用Matlab进行时-倒频图的可视化与分析,帮助研究人员深入理解非平稳信号的周期性成分与谐波结构。; 适合人群:具备一定信号处理基础,熟悉Matlab编程,从事电子信息、机械工程、生物医学或通信等相关领域科研工作的研究生、工程师及科研人员。; 使用场景及目标:①掌握倒谱分析与短时倒谱的基本理论及其与傅里叶变换的关系;②学习如何用Matlab实现Cepstrogram并应用于实际信号的周期性特征提取与故障诊断;③为语音识别、机械设备状态监测、振动信号分析等研究提供技术支持与方法参考; 阅读建议:建议读者结合提供的Matlab代码进行实践操作,先理解倒谱的基本概念再逐步实现短时倒谱分析,注意参数设置如窗长、重叠率等对结果的影响,同时可将该方法与其他时频分析方法(如STFT、小波变换)进行对比,以提升对信号特征的理解能力。
先看效果: https://pan.quark.cn/s/aceef06006d4 OJBetter OJBetter 是一个 Tampermonkey 脚本项目,旨在提升你在各个在线评测系统(Online Judge, OJ)网站的使用体验。 通过添加多项实用功能,改善网站界面和用户交互,使你的编程竞赛之旅更加高效、便捷。 ----- 简体中文 ----- 安装 主要功能 安装脚本,你可以获得: 黑暗模式支持:为网站添加黑暗模式,夜晚刷题不伤眼。 网站本地化:将网站的主要文本替换成你选择的语言。 题目翻译:一键翻译题目为目标语言,同时确保不破坏 LaTeX 公式。 Clist Rating 分数:显示题目的 Clist Rating 分数数据。 快捷跳转:一键跳转到该题在洛谷、VJudge 的对应页面。 代码编辑器:在题目页下方集成 Monaco 代码编辑器,支持自动保存、快捷提交、在线测试运行等功能。 一些其他小功能…… [!NOTE] 点击 网页右上角 的 按钮,即可打开设置面板, 绝大部分功能均提供了帮助文本,鼠标悬浮在 ”? 图标“ 上即可查看。 使用文档 了解更多详细信息和使用指南,请访问 Wiki 页面。 如何贡献 如果你有任何想法或功能请求,欢迎通过 Pull Requests 或 Issues 与我们分享。 改善翻译质量 项目的非中文版本主要通过机器翻译(Deepl & Google)完成,托管在 Crowdin 上。 如果你愿意帮助改进翻译,使其更准确、自然,请访问 Crowdin 项目页面 贡献你的力量。 支持其他OJ? 由于作者精力有限,并不会维护太多的类似脚本, 如果你有兴趣将此脚本适配到其他在线评测系统,非常欢迎,你只需要遵守 GP...
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

酒城译痴无心剑

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值