【2019全国职业技能大赛大数据技术】任务三：4-数据清洗与分析（25分_题目+答案＜图片+分值＞）

濯一一

于 2021-04-05 14:36:06 发布

阅读量3k

点赞数 3

CC 4.0 BY-SA版权

分类专栏：全国职业技能“大数据技术与应用”赛题文章标签：全国职业技能大赛大数据技术数据清洗数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_44015669/article/details/115441925

【题目】

现已从相关网站及平台获取到原始数据集，为保障用户隐私和行业敏感信息，已进行数据脱敏。数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的
情况、不违反系统规则条件下，对真实数据进行改造并提供测试使用，如身份证号、手机号等个人信息都需要进行数据脱敏。
hoteldata.csv 文件中已经包含了数据采集阶段从酒店网站上爬取的数据集，其中包含了来自不同城市中多家酒店的销售信息，你的小组需要通过编写代码或脚本完成对文件 hoteldata.csv 中酒店销售管理数据的清洗和整理，并完成数据计算和分析任务。综合利用 MapReduce、Spark、Storm、分布式存储系统、数据仓库 Hive、数据推送工具等技术，使用 Java、Python 等开发语言，完成本阶段数据清洗、存储、转化、分析及数据推送等任务。通过多个维度分析酒店的销售信息，并以此评价酒店销售业绩、区域的游客接纳能力、接纳质量等指标。
初始数据集来自多个网站及平台系统，且为多次采集汇总，因此数据集中不可避免地存在一些脏数据，即源数据不在给定的范围内或对于实际业务毫无意义，或是数据格式非法，以及在源系统中存在不规范的编码和含糊的业务逻辑。

请分析数据集 hoteldata，根据题目规定要求实现数据清洗及分析。

脱敏后的数据存放于平台/h3cu/hoteldata.csv ；
Spark maven 依赖的配置文件样例存放于计算机桌面/H3CU_hotel/spark_file ；
任务三虚拟机账号/ 密码：hadoop/hadoop ；虚拟机 MySQL 数据库账号/密码：root/Password123$ ；
相关 jar 包存放于在计算机桌面/H3CU_hotel/j

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

濯一一 你的鼓励：我最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。