2.离线数仓-业务数据采集

本文介绍了电商业务数据采集的架构,包括订单、支付、商品、活动和优惠券等核心表结构。讲解了SKU与SPU的区别,以及平台属性和销售属性。同时,阐述了数据表之间的关联关系,如收藏、购物车、领券、支付、退单、退款和评价等,并强调了数据不可修改性对大数据分析的影响。

前言

数据采集分为两部分,前面已经说了行为日志采集,接下来说明业务数据采集。

一、业务数据采集对应架构图说明

在这里插入图片描述
项目总架构图中该部分对应了业务数据的采集过程

二、业务数据从哪里来

业务数据一般指的是存储在数据库中的数据,例如订单数据、支付数据、商品数据等等

三、电商基础知识

1.SKU和SPU

SKU:Stock Keeping Unit(库存量基本单位)。现在已经被引申为产品统一编号的简称,每种产品均对应有唯一的SKU号。
SPU(Standard Product Unit):是商品信息聚合的最小单位,是一组可复用、易检索的标准化信息集合。
SPU表示一类商品。同一SPU的商品可以共用商品图片、海报、销售属性等。
为了方便理解,如下图:
在这里插入图片描述
上图中iPhoneX手机就是SPU。一台银色、128G内存的、支持联通网络的iPhoneX,就是SKU。
当然,不同颜色或者不同内存的iPhoneX就属于不同的SKU。

2.平台属性和销售属性

平台属性和销售属性展示的位置不同,如下图平台属性:
在这里插入图片描述
下图则是销售属性(一般指某个商品的具体参数):
在这里插入图片描述

四、电商业务表结构(简单了解)

1.整体结构

在这里插入图片描述

2.收藏SKU

收藏表记录的是用户收藏了某个SKU,所以收藏表包含了用户信息和SKU信息
收藏表中一行表示用个用户收藏了一个SKU,用表户和收藏表是1对多的关系,SKU表和收藏表是1对1的关系
在这里插入图片描述

2.加购物车

加购物车和收藏SKU是同样的关系
购物车表一行是一个用户把一个商品添加到购物车
在这里插入图片描述

3.领用优惠券

领用优惠券也和收藏SKU是同样的关系
优惠券领用表一行是一个用户领用了某一个优惠券
在这里插入图片描述

4.下单

订单表中只记录总金额和订单状态,不记录买了什么商品
订单表可以修改(可以修改收货地址)
订单明细表不可以修改
表能不能修改对后面数仓建设息息相关,因为Hive数据保存到HDFS上,HDFS上的数据一般不做修改,如果表能够修改,那么需要做额外的处理
在这里插入图片描述

5.支付

支付表中也没有商品信息,只有订单表的信息,因为支付是一次支付一个订单的,不能只支付订单中某些商品
在这里插入图片描述

6.退单

退单是可以退某件商品的,因此退单表和SKU信息表关联起来的。
例如一个订单买了10个商品,可以退其中的1件,因此退单表要包含退单的商品信息。
在这里插入图片描述

7.退款

退款类似于退单,退单可以退其中某件商品,那么退款也可以是某件商品的退款,因此需要包含SKU商品信息表
在这里插入图片描述

8.评价

用户对买的每一件商品都可以进行评价,因此评价表要关联用户表、订单表、SKU商品表
在这里插入图片描述

以下为本电商数仓系统涉及到的业务数据表结构关系。这34个表以订单表、用户表、SKU商品表、活动表和优惠券表为中心,延伸出了优惠券领用表、支付流水表、活动订单表、订单详情表、订单状态表、商品评论表、编码字典表退单表、SPU商品表等,用户表提供用户的详细信息,支付流水表提供该订单的支付详情,订单详情表提供订单的商品数量等情况,商品表给订单详情表提供商品的详细信息。本次讲解以此34个表为例,实际项目中,业务数据库中表格远远不止这些。

五、后台管理表结构(简单了解)

这个结构对于大数据人员来说没有意义,因为这个表严格遵守了MySQL的建表方式,严格遵守了三范式,去除掉了冗余(节省了磁盘)。
但是在大数据分析中查找某个属性需要多次关联,严重浪费性能(大数据基本不需要考虑磁盘问题)
在这里插入图片描述

1.商品

在这里插入图片描述

2.活动

活动可能是针对某件商品做活动的,例如衣服断码了,为了促销对剩下的SKU衣服做了活动
在这里插入图片描述

3.优惠券

优惠券是针对一类或一个品牌商品(SPU)做活动的
在这里插入图片描述

本课题设计了一种利用Matlab平台开发的植物叶片健康状态识别方案,重点融合了色彩与纹理双重特征以实现对叶片病害的自动化判别。该系统构建了直观的图形操作界面,便于用户提交叶片影像并快速获得分析结论。Matlab作为具备高效数值计算与数据处理能力的工具,在图像分析与模式分类领域应用广泛,本项目正是借助其功能解决农业病害监测的实际问题。 在色彩特征分析方面,叶片影像的颜色分布常与其生理状态密切相关。通常,健康的叶片呈现绿色,而出现黄化、褐变等异常色彩往往指示病害或虫害的发生。Matlab提供了一系列图像处理函数,例如可通过色彩空间转换与直方图统计来量化颜色属性。通过计算各颜色通道的统计参数(如均值、标准差及主成分等),能够提取具有判别力的色彩特征,从而为不同病害类别的区分提供依据。 纹理特征则用于描述叶片表面的微观结构与形态变化,如病斑、皱缩或裂纹等。Matlab中的灰度共生矩阵计算函数可用于提取对比度、均匀性、相关性等纹理指标。此外,局部二值模式与Gabor滤波等方法也能从多尺度刻画纹理细节,进一步增强病害识别的鲁棒性。 系统的人机交互界面基于Matlab的图形用户界面开发环境实现。用户可通过该界面上传待检图像,系统将自动执行图像预处理、特征抽取与分类判断。采用的分类模型包括支持向量机、决策树等机器学习方法,通过对已标注样本的训练,模型能够依据新图像的特征向量预测其所属的病害类别。 此类课题设计有助于深化对Matlab编程、图像处理技术与模式识别原理的理解。通过完整实现从特征提取到分类决策的流程,学生能够将理论知识与实际应用相结合,提升解决复杂工程问题的能力。总体而言,该叶片病害检测系统涵盖了图像分析、特征融合、分类算法及界面开发等多个技术环节,为学习与掌握基于Matlab的智能检测技术提供了综合性实践案例。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值