hadoop综合大作业

Python数据处理与Hadoop/Hive数据分析
该博客介绍了一系列数据处理与分析操作。先将Python爬取的数据传到Linux,制作预处理脚本,替换数据中的逗号。接着启动Hadoop集群和Hive,将数据上传到HDFS并导入表中。还进行了多项统计,如评论条数、好评率、特定角色出现频率及不同城市评论数等。

作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

 

1、把python爬取的数据传到linux

2.制作预处理脚本

3、把数据的逗号代替为 \t转义字符

4、启动hadoop集群

 

5、把数据文件上传到hdfs

 

6、启动hive

 

7、使用bdlab数据库

8、创建表并把hdfs的数据导入表中

 

 

 9、统计数据一共有105989条

 10、统计出不是同一用户评论的条数

11、列出前10名观众分数和时间

12、列出前10名观众的评论

13、统计评论分数大于4分(总5分)的评论条数,大部分是大于4分,说明

《宝可梦》的好评率很高。

14、统计出皮卡丘出现频率

 

 

15、列出多少个城市

 16、统计北京的评论数

17、统计上海的评论数 

18、统计广州的评论数

19、统计深圳的评论数

 

 

转载于:https://www.cnblogs.com/liliguang/p/11059747.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值