基于大数据电商平台日志

最新推荐文章于 2024-04-30 14:55:33 发布

原创

最新推荐文章于 2024-04-30 14:55:33 发布 · 347 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#big data #大数据

该项目通过构建简易电商平台并模拟海量日志生成，利用Hadoop生态组件进行数据采集。使用Flume收集日志，MySQL和HDFS存储数据，Sqoop作为数据转换桥梁，MapReduce进行数据清洗和分析，Echarts进行可视化展示，呈现商品的topN信息。

一、项目介绍

本次实训，要求使用Hadoop及其生态圈相关的组件来是实现企业级大数据开发的整套流程，即数据的采集部分会介绍两种方式，一种介绍网络爬虫及其Java代码实现步骤，另外一种是利用学生所掌握的spring MVC技术来构建一个简易的电商平台，采取压测的方式模拟海量日志的产生，通过使用Nginx和Tomcat实现动静资源分开部署的方式，采取flume日志采集组件来实现日志的采集。

【大数据Hadoop开发】大数据项目实战-大型电商日志分享系统_哔哩哔哩_bilibili

相比网络爬虫，这部分是实训所推荐的一种数据采集方式，数据的存储部分，将采用mysql和hdfs来分别存储关系型数据和非关系型数据，其中将会使用到sqoop组件作为mysql和hdfs之间的数据的转换桥梁和通道，数据分析处理部分采用MapReduce程序实现数据的清洗和分析，数据可视化部分，采用echarts图表来展现。

最终的效果是通过压测产生电商系统日志、sqoop将分析后的结果导入到mysql中，spring MVC项目前端对分析结果进行可视化，既展现商品的topN信息。

二、项目流程

项目工作准备

1、虚拟机安装

实训的项目主要是进行大数据的实训，所以需要安装linux，使用VMware Workstation作为虚拟机安装Linux系统，

下载虚拟机

连接

密码

创建虚拟机

2、远程登录

Linux一般作为服务器使用，而服务器一般放在机房，你不可能在机房操作你的Linux服务器。这时我们就需要远程登录到Linux服务器来管理维护系统。

Linux系统是通过SSH服务实现的远程登录功能，默认ssh服务端口号为22。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。