大数据词频统计作业

最新推荐文章于 2024-05-11 19:27:04 发布

KianA_Kas_LanA

最新推荐文章于 2024-05-11 19:27:04 发布

阅读量1.5k

点赞数 1

文章标签： hadoop ubuntu hdfs

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/KianA_Kas_LanA/article/details/122204564

版权

本文详细介绍了如何在Ubuntu系统中利用Hadoop进行MapReduce操作，以实现对《老古董店》英文版txt文件的词频统计。步骤包括安装Ubuntu、配置Java环境、数据上传到HDFS、编写并编译WordCount Java程序、运行程序以及下载和展示处理结果。通过这个过程，展示了MapReduce在大数据处理中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、需求描述
Hadoop综合大作业要求：
1.将待分析的文件（不少于10000英文单词）上传到HDFS。
2.调用MapReduce对文件中各个单词出现的次数进行统计。
3.将统计结果下载本地。
4.写一篇博客描述你的分析过程和分析结果。
本次大作业，我们需要实现的是调用MapReduce对文件中各个单词出现的次数进行统计。要求在Linux系统中实现上述操作。首先要安装Ubuntu系统，然后要配置Java环境，安装JDK。Ubuntu提供了一个健壮，功能丰富的计算环境。

二、环境介绍
jdk-8u301-linux-x64
在这里插入图片描述

hadoop-3.2.2
在这里插入图片描述

eclipse-4.7.0-linux.gtk.x86_64
在这里插入图片描述

三、数据来源及数据上传
The Old Curiosity Shop（老古董店英语版）txt下载-电子书下载-拉米阅读 (lmeee.com)
四、数据上传结果查看
1、首先启动hdfs
在这里插入图片描述

2、将桌面的lasttest.txt上传到hdfs
在这里插入图片描述

在这里插入图片描述

五、数据处理过程的描述

在Eclipse中创建项目
在“Project name”后面输入工程名称“WordCount”，选中“Use default location”，让这个Java工程的所有文件都保存到“/home/hadoop/workspace/WordCount”目录下。在“JRE”这个选项卡中，可以选择当前的Linux系统中已经安装好的JDK，比如jdk1.8.0_162。然后，点击界面底部的“Next>”按钮，进入下一步的设置。
<

最低0.47元/天解锁文章

博客等级

码龄6年

1
原创

1
点赞

6
收藏

1
粉丝

关注

私信

热门文章

大数据词频统计作业 1593

最新评论

大数据词频统计作业
懿瑶: 能否借鉴一下
大数据词频统计作业
NAPovo: 你写的是你吗呢

最新文章

目录

展开全部

收起

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。