
大数据
文章平均质量分 71
大数据库综合实验
呵呵world
这个作者很懒,什么都没留下…
展开
-
招聘网站—Hive数据分析
第1关:统计最热门的十种职业(招聘人数最多)第2关:分析学历相同的情况下每种职位的平均薪资第3关:统计各个职业要求具备的技能及其出现的次数第4关:分析每种职业在各个薪资等级需要招聘的人数任务描述在之前的任务中,我们完成了对招聘的清洗,接下来我们需要通过获取到的招聘数据来统计查询我们想要的数据信息。本关任务:统计最热门的十种职业(招聘人数最多)。在 hive 中创建数据库 mydb;在 mydb 中创建 recruitcleaned 表用来存放招聘数据清洗后的数据;原创 2023-06-07 15:46:09 · 942 阅读 · 1 评论 -
招聘网站—MapReduce数据清洗
利用MapReduce数据清洗本关我们主要对爬取到的招聘数据进行清洗,清洗规则如下:判断数据长度是否为 9 并判断数据字段是否完整,如有不完整字段(字段值为空),则清洗掉这一行数据;对整条数据都一样的进行去重处理;对数据字段中的城市(city)进行处理,只保留其中的市,舍弃区县,例如:深圳·南山区 -> 深圳;对数据字段中的薪资(salary)计算处理,计算规则如下:(1)mk-nk:(m+n)/2,结果保留两位小数(注意:也有可能出现 mK-nK)。原创 2023-06-07 15:42:09 · 2466 阅读 · 0 评论 -
电影票房之数据分析(Hive)--第5关
电影票房之数据分析(Hive)第5关:统计2020年元旦节与国庆节放假后7天的观影人数本关任务基于EduCoder平台提供的初始数据集,统计 2020 年元旦节与国庆节放假后 7 天的观影人数。编程要求本实验环境已开启Hadoop服务在 hive 中创建数据库mydb;注意:在开始要求2之前,建议您提前查看数据库中是否存在 moviecleaned 表(在环境没销毁的情况下,第一关的导入的数据可以持续使用)。如果不存在请按要求2执行,同时注意数据不要重复插入,否则可能影响后续统计的准原创 2023-06-07 15:37:05 · 1869 阅读 · 0 评论 -
电影票房之数据分析(Hive)--第4关
电影票房之数据分析(Hive)--第4关。本关任务基于EduCoder平台提供的初始数据集,统计 2020 年首映的电影上映后 7 天的电影票房信息。编程要求本实验环境已开启Hadoop服务在 hive 中创建数据库mydb;注意:在开始要求2之前,建议您提前查看数据库中是否存在 moviecleaned 表(在环境没销毁的情况下,第一关的导入的数据可以持续使用)。如果不存在请按要求2执行,同时注意数据不要重复插入,否则可能影响后续统计的准确性。在mydb中创建moviecle原创 2023-06-07 15:33:14 · 933 阅读 · 0 评论 -
电影票房之数据分析(Hive)--第3关
第3关:统计2020年中当日综合总票房最多的10天本关任务基于EduCoder平台提供的初始数据集,统计 2020 年中当日综合总票房最多的 10 天及其当日综合总票房。编程要求本实验环境已开启Hadoop服务在 hive 中创建数据库mydb;注意:在开始要求2之前,建议您提前查看数据库中是否存在 moviecleaned 表(在环境没销毁的情况下,第一关的导入的数据可以持续使用)。如果不存在请按要求2执行,同时注意数据不要重复插入,否则可能影响后续统计的准确性。在mydb中创原创 2023-06-07 15:30:56 · 680 阅读 · 0 评论 -
电影票房之数据分析(Hive)-- 第2关
第2关:统计2020年国庆假期中电影票房增长最多的三部电影及其每日的票房数据。本关任务基于EduCoder平台提供的初始数据集,统计国庆假期中电影票房增长最多的三部电影及其每日的票房数据。编程要求本实验环境已开启Hadoop服务在 hive 中创建数据库mydb;注意:在开始要求2之前,建议您提前查看数据库中是否存在 moviecleaned 表(在环境没销毁的情况下,第一关的导入的数据可以持续使用)。如果不存在请按要求2执行,同时注意数据不要重复插入,否则可能影响后续统计的准确性。原创 2023-06-07 15:28:33 · 985 阅读 · 0 评论 -
电影票房之数据分析(Hive)--第1关
电影票房之数据分析(Hive)第1关:统计2020年上映的电影中,当前总票房最高的10部电影。电影票房之数据分析(Hive)第1关:统计2020年上映的电影中,当前总票房最高的10部电影本关任务基于EduCoder平台提供的初始数据集,统计 2020 年上映的电影中,当前总票房最高的 10 部电影。编程要求本实验环境已开启Hadoop服务在 hive 中创建数据库 mydb;在 mydb 中创建 moviecleaned 表,将数据集movies.txt导入 moviecleaned 表中。原创 2023-05-24 15:26:26 · 1231 阅读 · 0 评论 -
电影票房之数据清洗(MapReduce)
电影票房之数据清洗(MapReduce)第1关:数据清洗任务描述基于EduCoder平台提供的初始数据集(数据集存放在 /data/workspace/myshixun/data/movies.csv 中),按照下面的要求,完成电影票房数据的清洗工作。编程要求去掉字段“上映天数”中带有“零点场”、“点映”、“展映”和“重映”的电影数据;以字段“上映天数”和“当前日期”为依据,在尾列添加一个“上映日期”(releaseDate)的字段,该字段值为“当前日期”减去“上映天数”+1原创 2023-05-22 09:44:38 · 1968 阅读 · 1 评论 -
共享单车之数据分析-统计共享单车每天的平均使用时间
任务描述本关任务:使用的对已经存在 Hbase 的共享单车运行数据进行分析,统计共享单车每天的平均使用时间,其中共享单车运行数据在的表中(表结构可在编程要求中进行查看)。相关知识为了完成本关任务,你需要掌握:如何配置的类是运行在上的一个并行计算框架,分为节点和节点。提供了的和两个方法来完成的配置。initTableMapperJob 方法: initTableReducerJob 方法:原创 2023-05-22 09:32:54 · 1739 阅读 · 0 评论 -
共享单车之数据存储-保存共享单车数据
我们可以通过类加载器加载共享单车数据文件。文件中获取共享单车数据,保存到。将无效数据或非法数据进行抛出。说明:由于数据过多,我们将输出。开始你的任务吧,祝你成功!类封装了对应的批量存储到。共享单车数据结构和获取。根据提示,在右侧编辑器。目的地 = 所在城市。原创 2023-05-22 09:30:51 · 756 阅读 · 1 评论 -
共享单车之数据存储-获取工作簿中的数据
表中有非法数据,我们在获取时为了避免出错或者获取到空的数据,可以使用。为了完成本关任务,你需要掌握:如何获取。获取工作簿中的信息,我们可以使用。格式档案读和写的功能)提供的。、开始时间、结束经度、车辆。原创 2023-05-22 09:28:16 · 532 阅读 · 0 评论