大数据应用期末总评

本博客分享了使用Python爬取《权力的游戏》豆瓣影评数据的过程,通过HDFS将数据导入MySQL,利用Hive进行数据类型分类和特定查询,解决CSV文件导入乱码及表格数据类型不规范的问题。

作业缘由:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

这是爬取的数据,豆瓣上权利的游戏的影评,将txt文件转换为csv文件

 

准备工作,开启hadoop,mysql,hive 服务,挂在文件。

查询爬取的数据

创建表

 

创建表时的数据类型分类,分别为:第几条、用户名、点赞数、发表时间、评论。

建完后 检查一下 确认无误。

 

查询表中的数据类型

因为豆瓣在未登录下只爬取少量的数据  爬取了207条影评

查出UID不重复的数据 有160条

查询时间前20的各点赞数

 总结

 这次作业是结合本学期学过的所有知识,利用PYHTON爬取出的数据来进行分析,将数据通过HDFS传入数据库MYSQL中,

在HIVE中进行建表和区分数据类型,再利用HIVE中进行特定要求的数据查询,获得所需要的结果。

问题:在实验过程中,将CSV文件导入进取时总是遇到乱码,是因为没有设置为UTF-8模式进行保存才会出现乱码。

还有在HIVE建表时第一列我本应该为用户名,可在表格中是序号,所以我建的第一个表格bigdata_user导致后面的数据类型不规范,

我上网百度了下后删除了表格中的所有数据,并重新建立了一个新表格bigdata。

转载于:https://www.cnblogs.com/pang0722/p/11032861.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值