集群hadoop2.7.5运行wordcount实例

最新推荐文章于 2022-09-19 10:22:09 发布

Lane Phoebe

最新推荐文章于 2022-09-19 10:22:09 发布

阅读量2.3k

点赞数

CC 4.0 BY-SA版权

分类专栏： hadoop进阶之路

本文链接：https://blog.youkuaiyun.com/qq_25628891/article/details/79051414

hadoop进阶之路专栏收录该内容

3 篇文章

订阅专栏

本文介绍如何使用Hadoop进行WordCount实例操作，包括文件创建、上传至集群、运行WordCount程序及结果验证等步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

cd
mkdir input
vim input/test.txt

随便输入点内容

hello hadoop
how are you
fine thank you

这里写图片描述

hadoop fs -mkdir -p /user/hadoop/input      #fs方式创建文件夹
hadoop fs -put ./input/test.txt input/      #把本地test.txt传到集群
hadoop fs -ls input/                        #查看input目录结构
hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar wordcount  input out    #运行wordcount

这里写图片描述

hadoop fs -ls /user/hadoop/out              #查看结果，跟本地结果一致
hadoop fs -cat /user/hadoop/out/part-r-00000

这里写图片描述

hadoop fs -get /user/hadoop/out/part-r-00000 ./  #通过get命令，把文件下载到本地
ll      #查看本地文件信息

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Lane Phoebe

关注关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

hadoop wordcount

yandao的博客

06-21

2349

wordcount

MapReduce技术详解

最新发布

ljw714的专栏

06-14

1184

MapReduce是一种分布式计算框架，专为大规模数据并行处理而设计。本文系统介绍了MapReduce的核心概念、工作原理和编程模型，详细分析了Map阶段的输入分片处理、Shuffle阶段的排序合并机制以及Reduce阶段的最终结果输出。文章提供了完整的Java编程示例，包括Mapper、Reducer和Partitioner的实现，并深入探讨了性能优化策略和数据倾斜解决方案。最后总结了开发规范、测试方法和运维实践，帮助读者构建高效可靠的大数据处理应用。MapReduce通过简单的编程模型实现了复杂分布式计

参与评论您还未登录，请先登录后发表或查看评论

hadoop-运行WordCount实例

不能飞翔的天空

05-10

719

运行Hadoop的第一个实例：WordCount 1.配置hadoop的运行环境见大数据管理系统开发环境搭建 2.运行hadoop系统（./start-all.sh），用jps查看所有的hadoop进程，应该有以下进程 namenode secondary-namenode datanode 以上三个节点保证了

Hadoop的WordCount实例代码

01-14

关于Hadoop的WordCount实例代码，能够实现实现单词计数。

hadoop wordcount源代码分析

西电一枝花的专栏

08-15

6539

package org.apache.hadoop.examples; import java.io.IOException; import java.util.StringTokenizer; importorg.apache.hadoop.conf.Conf

hadoop集群运行wordcount步骤

阿生

03-02

1905

1：准备工作安装配置hadoop集群 2：开启hadoop集群命令start-all.sh也可以用start-dfs.sh和start-yarn.sh两条命令来完成 3：创建需要给单词计数的文件 eg：mkdir /aaa 然后建立这个文件 vim aaa/inputword 查看该文件的内容，如果没有写则自己写一段话 4：在hdfs中建立文件输入文件夹 had

Centos7(GUI)下的hadoop与eclipse的连接并运行wordcount实例

qq_45672631的博客

11-01

1364

hadoop伪分布式配置hadoop的伪分布环境搭建（hadoop-2.7.5）_qq_45672631的博客-优快云博客 hadoop分布式配置 hadoop-2.7.5（分布式集群搭建）_qq_45672631的博客-优快云博客在确定hadoop配置没有问题的前提下，本次操作是在Centos7GUI版下进行的，eclipse2021.09 linux版，hadoop-eclipse-plugin-2.7.5.jar（插件用来eclipse与hadoop连接的java包），这里涉及到eclip

hadoop在eclipse上运行实例

qq_45672631的博客

11-02

3015

上一篇博客阐述了怎么创建hadoop与eclipse的连接（因为是在GUI版上装的linux版eclipse），所以这一篇不仅介绍怎么做，而且还讲解怎么创建windows上eclipse与linux上的hadoop的连接。 (11条消息) Centos7(GUI)下的hadoop与eclipse的连接并运行wordcount实例_qq_45672631的博客-优快云博客这里，在hadoop已经成功的前提下，我们在官网下载eclipse （这里用的是2021-06版的）java-jdk（这里用的11.

在Java开发环境中运行wordcount程序

rqp123456的博客

08-17

553

1 MapReduce介绍 1.1 MapReduce定义 MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自身默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。 1.2 MapReduce核心思想（1）分布式的运算程序往往需要分成至少2个阶段。（2）第一个阶段的MapTask并发实例，完全并行运行，互不相干。（3）第二个阶段的ReduceTask并发

Hadoop的MapReduce实例讲解—Python写的WordCount Demo

weixin_41465064的博客

11-16

551

MapReduce是hadoop这只大象的核心，Hadoop 中，数据处理核心就是 MapReduce 程序设计模型。一个Map/Reduce 作业（job）通常会把输入的数据集切分为若干独立的数据块，由 map任务（task）以完全并行的方式处理它们。框架会对map的输出先进行排序，然后把结果输入给reduce任务。通常作业的输入和输出都会被存储在文件系统中。因此，我们的编程中心主要...

Python实现MapReduce的WordCount实例

ChungChinKei' blog

08-02

1571

目录基本信息尽管Hadoop的基本框架是用java实现的，但hadoop程序不限于java，可以用python、C++及ruby等等。本例实现统计输入文本的单词的频数。操作系统：CentOS7.6 Hadoop版本： Hadoop 3.2.0伪分布式环境 Python版本： Python2.7.5 实例代码 map reduce 参考资料用python写MapReduce函数——以...

hadoop-2.7.5

10-01

hadoop-2.7.5, 源文件, 可直接去官网下载,下载后解压即可, 需要的jar包在 /hadoop/share下面

hadoop中Wordcount代码

03-12

这是原始的代码，是txt文件形式。用起来比较方便。

Hadoop开发WordCount源码详细讲解

04-28

Hadoop开发WordCount源码程序详细讲解，每一行都带注释说明。

hadoop入门java代码hdfs文件操作 wordCount源码

01-27

hadoop入门级的代码 Java编写 eclipse可运行包含 hdfs的文件操作 rpc远程调用的简单示例 map-reduce的几个例子：wordcount 学生平均成绩手机流量统计

Hadoop之实战WordCount

qq_52150032的博客

05-19

1882

大致流程如下：第一步：开发Map阶段代码第二步：开发Reduce阶段代码第三步：组装Job 在idea中创建WordCountJob类添加注释，梳理一下需求：需求：读取hdfs上的hello.txt文件，计算文件中每个单词出现的总次数 hello.txt文件内容如下： hello you hello me 最终需要的结果形式如下： hello 2 me 1 you 1 先创建map阶段的代码，在这里需要自定义一个mapper类，继承框架中的Mapper类 public static.

hadoop2.3安装和wordcount运行验证

热门推荐

hzhxxx的专栏

03-06

1万+

以下描述了centos linux(2.6.32-279.el6.x86_64)位机器下,安装32位hadoop 2.3,并通过运行系统自带的 WordCount 例子来验证服务正确性的步骤。

数据挖掘实验：使用 Hadoop 实现 WordCount 应用

ProgramNovice的博客

09-19

8394

数据挖掘实验：使用 Hadoop 实现 WordCount 应用

centos7搭建hadoop集群

03-21

### CentOS 7 上搭建 Hadoop 集群的教程 #### 准备工作在开始部署前，需准备三台运行 CentOS 7 的服务器，并确保每台服务器能够通过 SSH 进行无密码登录。以下是具体的 IP 地址分配[^4]: - **hadoop1**: `192.168.223.200` (NameNode 和 Secondary NameNode) - **hadoop2**: `192.168.223.201` (DataNode) - **hadoop3**: `192.168.223.202` (DataNode) 修改网络配置文件 `/etc/sysconfig/network-scripts/ifcfg-ens33` 来设置静态 IP。 --- #### 安装 Java 环境 Hadoop 基于 Java 开发，因此需要先安装 JDK 并配置环境变量。 ```bash sudo yum install java-1.8.0-openjdk-devel -y export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk echo 'export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk' >> ~/.bashrc source ~/.bashrc ``` 验证 Java 是否成功安装并生效： ```bash java -version ``` --- #### 下载并解压 Hadoop 软件包下载 Apache Hadoop 并将其解压缩至指定路径。假设版本为 `hadoop-2.7.5`[^2]。 ```bash wget https://archive.apache.org/dist/hadoop/common/hadoop-2.7.5/hadoop-2.7.5.tar.gz tar -zxvf hadoop-2.7.5.tar.gz -C /opt/ cd /opt/hadoop-2.7.5 ``` 将 Hadoop 添加到系统的 PATH 中以便全局调用： ```bash echo 'export PATH=$PATH:/opt/hadoop-2.7.5/bin:/opt/hadoop-2.7.5/sbin' >> ~/.bashrc source ~/.bashrc ``` --- #### 配置免密 SSH 登录为了简化节点间的通信，在所有节点之间配置基于公钥的身份认证。 ```bash ssh-keygen -t rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 600 ~/.ssh/authorized_keys ``` 测试是否可以无需输入密码即可访问其他节点： ```bash ssh hadoop2 ssh hadoop3 ``` 如果无法正常连接，请检查防火墙状态或关闭它： ```bash systemctl stop firewalld systemctl disable firewalld ``` --- #### 配置 Hadoop 文件编辑核心配置文件以适配集群需求： ##### 1. `core-site.xml` 定义默认存储位置以及临时目录。 ```xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://hadoop1:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/data/hadoop/tmp</value> </property> </configuration> ``` ##### 2. `hdfs-site.xml` 设定副本数量和名称节点的数据存储路径。 ```xml <configuration> <property> <name>dfs.replication</name> <value>2</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:///data/hadoop/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:///data/hadoop/datanode</value> </property> </configuration> ``` ##### 3. `mapred-site.xml` 启用 YARN 支持 MapReduce 计算框架。 ```xml <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration> ``` ##### 4. `yarn-site.xml` 配置 ResourceManager 和 NodeManager 参数。 ```xml <configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>hadoop1</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration> ``` ##### 5. 更新主机名映射编辑 `/etc/hosts` 文件来绑定各节点的域名与 IP 地址关系。 ```plaintext 192.168.223.200 hadoop1 192.168.223.201 hadoop2 192.168.223.202 hadoop3 ``` --- #### 初始化 HDFS 文件系统在主节点（即 Namenode）上执行以下命令完成分布式文件系统的格式化操作[^1][^3]。 ```bash hdfs namenode -format ``` --- #### 同步配置文件到 DataNodes 利用 SCP 工具复制已调整完毕的 Hadoop 设置给其余成员节点。 ```bash scp -r /opt/hadoop-2.7.5/ hadoop2:/opt/ scp -r /opt/hadoop-2.7.5/ hadoop3:/opt/ ``` --- #### 启动 Hadoop 集群服务返回到主控机（hadoop1），依次激活各个组件的服务进程。 ```bash start-dfs.sh start-yarn.sh mr-jobhistory-daemon.sh start historyserver ``` 确认所有守护线程均已上线可用： ```bash jps ``` 停止整个平台时可采用如下指令集合： ```bash stop-yarn.sh stop-dfs.sh ``` 强制终止残留实例的方法如下所示： ```bash ps -ef | grep hadoop | grep java | grep -v grep | awk '{print $2}' | xargs kill -9 sleep 2 ``` --- #### 测试集群功能上传一份本地文档作为样本数据集存入远程仓库中加以检验其连通性和计算能力。 ```bash hdfs dfs -mkdir -p /input hdfs dfs -put /path/to/local/file.txt /input hadoop jar /opt/hadoop-2.7.5/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar wordcount /input /output hdfs dfs -cat /output/part-r-* ``` ---