Hadoop综合大作业

转载于 2018-05-25 19:54:00 发布 · 52 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/AMINOAC/p/9090450.html

文章标签：

#大数据 #爬虫 #数据库

本文介绍如何使用Hive对英文长篇小说进行词频统计，并对爬虫产生的CSV文件进行数据分析。首先通过一系列HDFS命令上传和管理文件，然后在Hive中创建数据库及表，导入数据并运用HQL进行词频统计。此外还展示了CSV文件的数据分析流程。

1.用Hive对爬虫大作业产生的文本文件（或者英文词频统计下载的英文长篇小说）词频统计。

对英文长篇小说The Souls of Black Folk进行词频统计

1.start-all.sh

创建文件夹

1.hdfs dfs-mkdir storyinput

2.hdfs dfs-ls/usr/hadoop

上传文件至hdfs：

下载story.txt保存在~/下载里，查询目录，上传至hdf

启动Hive

创建数据库story，在数据库里建原始文档表

导入文件内容到表storydocs

用HQL进行词频统计，结果放在表story_count里查看统计结果

2.用Hive对爬虫大作业产生的csv文件进行数据分析，写一篇博客描述你的分析过程和分析结果。

将数据以csv格式上传到hdfs

技术分享图片

进入文件路径并查看数据前5

技术分享图片

将文件上传到HDFS上

技术分享图片

查看上传成功的文件的前20个数据

技术分享图片

查看数据总条数

技术分享图片

转载于:https://www.cnblogs.com/AMINOAC/p/9090450.html

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。