1. 项目背景
该项目来源于尚硅谷企业电商数据分析平台项目,构建企业级电商网站的大数据统计分析平台, 该平台以 Spark 框架为核心, 对电商网站的日志进行离线和实时分析。项目以实现需求为核心,通过对电商平台的用户访问 session 分析、 页面单跳转化率统计、 热门商品离线统计、广告流量实时统计4 个业务模块的开发,熟悉SparkCore、SparkSql和SparkStreaming三大组件的Api和开发模式。
项目视频:尚硅谷电商数据分析平台视频
项目代码:https://github.com/Icedzzz/SparkCommerceProject
2. 项目架构
项目分为离线和实时两个需求模块开发。采用技术栈:Hive+Kafka+Spark+Mysql
离线模块:使用SparkCore和SparkSQL对Hive表中数据进行离线分析,完成用户访问 Session 分析、页面单跳转化率分析、各区域热门商品统计三个模块,六个需求指标的计算,并将结果写入Mysql。
实时模块:实时分析系统从Kafka broker 中获取数据, 通过 Spark Streaming 的流式处理对广告点击流量进行实时分析,最终将统计结果存储到 MySQL 的对应表中

3. 需求分析
<

构建企业级电商网站大数据统计分析平台,运用Spark框架进行离线与实时数据处理,涵盖用户访问session分析、页面转化率统计、区域热门商品及广告流量实时统计,深入掌握Spark三大组件API。
最低0.47元/天 解锁文章
1275

被折叠的 条评论
为什么被折叠?



