
Spark
文章平均质量分 64
liulizhi1996
这个作者很懒,什么都没留下…
展开
-
Apache Spark 练习七:使用Spark分析化妆品电子商务数据
本章所分析的数据来自于Kaggle公开的化妆品电子商务数据。在开始下面的练习前,将csv文件中的数据全部写入到Kafka的“E_Commerce”消息主题中。原创 2022-12-27 16:05:17 · 731 阅读 · 1 评论 -
Apache Spark 练习六:使用Spark分析音乐专辑数据
本章所分析的数据来自于Kaggle公开的、人工合成的音乐专辑发行数据()。以下,我们只针对albums.csv文件进行分析。原创 2022-12-22 14:51:39 · 2139 阅读 · 0 评论 -
Apache Spark 练习五:使用Spark进行YouTube视频网站指标分析
本章所分析的数据来自于Simon Fraser大学公开的YouTube视频网站的视频数据。数据包含两张表。第一张为视频表,记录了研究人员爬取的视频的元数据信息,具体包括以下字段:原创 2022-12-22 09:56:17 · 40515 阅读 · 0 评论 -
Apache Spark 练习四:使用Spark分析挖掘零售交易数据
本章所分析的数据来自于一家英国的零售电商平台在01/12/2010至09/12/2011期间的交易数据,每条记录由8个属性组成,具体的含义如下表所示:原创 2022-12-21 17:13:23 · 1174 阅读 · 0 评论 -
Apache Spark 练习三:使用Spark SQL分析新冠肺炎疫情数据
本文依然延续使用中的数据进行分析。原创 2022-12-20 17:57:37 · 596 阅读 · 0 评论 -
Apache Spark 练习二:使用Dataframe分析新冠肺炎疫情数据
本文依然延续使用中的数据进行分析。原创 2022-12-20 17:10:51 · 402 阅读 · 0 评论 -
Apache Spark 练习一:使用RDD分析新冠肺炎疫情数据
一、源数据本章所分析的数据来自于纽约时报发布的美国新冠肺炎疫情数据(),它记录了从美国发现首例确诊病例以来各县截至当天的累计确诊病例和累计死亡病例数。date:日期county:县名state:该县所属的州fips:FIPS代码,前2位标识州,后3位标识县cases:该县截至当日的累计确诊病例数deaths:该县截至当日的累计死亡病例数需要注意的是,表格中的数据都是累计数据,而非每天的新增数据。二、练习题0. 数据预处理。原创 2022-12-16 10:43:19 · 1136 阅读 · 0 评论