自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 基于spark的搜狗日志使用时间分析

摘要:本项目基于Sogou实验室提供的50万条用户搜索行为数据,采用Hadoop、Spark和SuperSet技术栈构建了一个完整的搜索引擎使用分析系统。通过HDFS存储原始数据,使用Spark进行数据清洗和分析(重点统计一天中每小时的搜索量),将结果存入MySQL后,利用SuperSet实现可视化展示。分析结果显示用户搜索行为呈现明显的时间规律,上午10点和晚上8点为搜索高峰,凌晨4点为最低谷。项目难点在于数据清洗和SuperSet配置,未来计划进一步探索大数据算法在行为分析中的应用。 (字数:149字)

2025-08-18 23:08:49 1608

原创 基于Spark的城市平均工资分析

本项目基于Kaggle发布的招聘平台大数据岗位数据集,采用Hadoop+Spark+ECharts技术栈实现城市薪资分析系统。系统通过HDFS存储1651条招聘数据,使用Spark Core进行数据清洗和分析,计算各城市平均薪资并输出为JSON格式,最后通过ECharts进行可视化展示。项目实现了从数据采集、存储、处理到可视化的完整流程,为求职者提供各城市薪资水平的直观参考。系统部署在Hadoop伪分布式环境,包含HDFS、Yarn和Spark等组件,展示了大数据处理技术的实际应用。

2025-07-28 19:10:32 675

原创 基于spark的美国新冠分析

(1)hdfs数据(2)spark分析,保存为json(3)echarts可视化(1)观察图并结合资料可分析得出:美国疫情感染人数是从3.21号开始出现缓慢增长,到4.5号就呈现快速增长的趋势。同时,死亡率也伴随着感染率快速增长。

2025-07-21 21:47:59 754

原创 基于spark学习通视频观看时长分析

短视频观看时长分析项目摘要 本项目基于学习通平台的用户观看视频数据,分析了30分钟课程中不同时间段(0-5min、5-10min等)的用户观看比例。数据来源于Kaggle平台,包含142,366条记录。技术方案采用Hadoop HDFS存储原始数据,Spark进行数据分析处理(包括时间区间分类计算),最终通过SuperSet实现可视化展示。分析结果显示大多数用户观看时长集中在课程前段,随着时间推移观看比例呈下降趋势。该项目完整实践了大数据处理流程:从数据获取、存储、分析到可视化展示。

2025-07-21 21:36:42 2132

原创 基于spark的2016年房价平均值分析

本文基于北京2011-2017年房价数据,采用Hadoop+Spark技术栈进行分析。项目通过HDFS存储31万条房屋交易数据,使用Spark SQL计算2016年各月平均房价并输出JSON格式结果,最后通过Echarts可视化展示房价变化趋势。分析结果表明2016年北京房价持续上涨,全年均价413万元,涨幅达147万元。项目实现了大数据处理全流程,包括数据获取、存储、分析和可视化,为房地产市场研究提供了数据支持。

2025-07-18 20:20:50 1796

原创 基于mapreduce的全球气温分析

本文基于天气通气象数据,通过Hadoop、Spark和Superset技术栈,对近10年气温变化进行分析。项目实现了四个核心功能:1)使用Spark ETL合并小文件并清洗数据;2)通过HDFS命令快速上传处理后的数据;3)利用MapReduce程序计算每月最高、最低及平均气温(华氏度转摄氏度);4)最终通过Superset进行可视化展示。项目采用典型的大数据处理架构,从数据采集到分析再到可视化,完整呈现了全球气温变化趋势,为研究气候变化提供了数据支持。

2025-07-18 19:42:29 154

原创 基于mapreduce的淘宝行为数据分析

本文介绍了一个基于淘宝天池购物车数据的分析项目。项目通过Hadoop MapReduce技术对2014年11-12月期间的下单数据进行处理,分析出下单数量排名前10的省份。系统采用HDFS存储原始数据,编写MapReduce程序进行省份下单量统计,并将结果存入MySQL数据库。最后通过SpringBoot框架结合ECharts实现数据可视化展示。项目涵盖了HDFS数据上传、MapReduce数据分析、数据库存储以及前端可视化等大数据处理全流程,为电商行为分析提供了参考案例。原始数据量达318万条,包含用户I

2025-07-10 05:44:07 766

原创 基于spark的深圳地铁热门站点分析

深圳作为中国超一线城市,近10年人口暴涨近720万,在第七次人口普查中,深圳人口数量达到了1850万,如此巨大的人口数量,其公共交通的出勤情况又是怎样的呢?本次作业以深圳市政府发布的公共交通出勤情况为数据源,通过调取其Api接口获取数据,使用hdfs存储数据,使用spark分析数据,使用superSet可视化,分析一天中各个地铁站点的人数比例,通过对比站点比例,得出结论技术栈:hadoop,spark,mysql, superset(1)调取api获取数据。

2025-07-09 22:59:00 599

原创 基于Hadoop的电影数据分析

本文基于Hadoop MapReduce技术对电影数据进行分析,主要内容包括: 数据预处理:使用27,279条电影数据,提取电影类别信息; MapReduce实现:通过Mapper切割类别数据,Reducer统计各类别出现次数; 结果存储:将统计结果导入MySQL数据库; 可视化展示:使用Echarts绘制饼图展示电影类别分布情况。最终实现了一个完整的电影数据分析流程,从数据处理到可视化呈现。

2025-07-02 23:01:12 671

原创 基于hadoop的b站数据分析

本文介绍了基于Hadoop的B站数据分析流程。首先详细说明了Hadoop集群的搭建过程,包括环境变量配置、核心配置文件修改以及集群初始化和启动。其次,利用MapReduce框架对爬取的5万余条B站视频播放数据进行分析,重点统计了各时段人流量分布情况,展示了完整的Map、Reduce和Driver代码实现。最后将分析结果通过Python程序存储到MySQL数据库中。整个流程涵盖了大数据处理从环境搭建、数据分析到结果存储的全过程,为B站用户行为分析提供了数据支持。

2025-07-02 22:46:27 622

原创 基于hadoop的餐饮平台数据分析

餐饮外卖平台向广大用户提供网上订餐服务,其市场占有量在近年不断增加。当用户在Z平台订餐完成后,平台会引导用户对于品尝过的菜品进行评价打分,最高为5分,最低为1分。通过用户的评分数据,可以分析外卖平台的受欢迎度、客户的体验度,现总结为用户评分数据(见附件评分.txt)和菜品数据集(见附件菜品.txt)。要求如下: 技术栈:hadoop,mapduce,hive(1)代码(2)运行结果(3)清洗后数据食物数据评价数据其中食物数据的第二列为菜品id和评价数据第二列一样,可以关联1)根据用户

2025-07-01 05:15:12 329

原创 基于hadoop的网站流量日志数据分析系统

本文介绍了基于Hadoop的网站流量日志数据分析系统搭建过程。首先详细说明了Hadoop集群的安装配置步骤,包括环境变量设置、核心配置文件修改以及集群初始化启动。接着使用500万条搜狗搜索日志数据,通过MapReduce编程实现了用户搜索关键词Top10统计,包含Mapper过滤数据、Reducer排序统计以及Driver驱动的完整代码实现。最后将分析结果保存至MySQL数据库,为后续可视化展示提供数据支持。整个系统展示了Hadoop在大规模日志数据处理中的应用价值。

2025-07-01 04:53:11 398

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除