MapReduce 案例 WordCount需求: 在一堆给定的文本文件中统计输出每一个单词出现的总次数。

MapReduce简介

MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大规模数据处理场景。 

MapReduce 案例 WordCount

需求: 在一堆给定的文本文件中统计输出每一个单词出现的总次数。

1、

source code源代码复制粘贴在一个java文件里,再用文件传输上传到虚拟机。源代码位置--

https://hadoop.apache.org/docs/stable/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html

这里重新创建了一个文件夹wc00来存放WordCount.java文件

2、将 Hadoop 的 classhpath 信息添加到 CLASSPATH 变量中

命令:vi   /etc/profile

export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPAH

命令:source /etc/profile

[root@demo wc00]#  vi   /etc/profile
[root@demo wc00]# source /etc/profile
[root@demo wc00]#  echo $CLASSPATH
/opt/hadoop-3.1.4/etc/hadoop:/opt/hadoop-3.1.4/share/hadoop/common/lib/*:/opt/hadoop-3.1.4/share/hadoop/common/*:/opt/hadoop-3.1.4/share/hadoop/hdfs:/opt/hadoop-3.1.4/share/hadoop/hdfs/lib/*:/opt/hadoop-3.1.4/share/hadoop/hdfs/*:/opt/hadoop-3.1.4/share/hadoop/mapreduce/lib/*:/opt/hadoop-3.1.4/share/hadoop/mapreduce/*:/opt/hadoop-3.1.4/share/hadoop/yarn:/opt/hadoop-3.1.4/share/hadoop/yarn/lib/*:/opt/hadoop-3.1.4/share/hadoop/yarn/*:

3、编译、打包 Hadoop MapReduce程序:

命令:javac WordCount.java

命令:jar -cvf WordCount.jar ./WordCount*.class

4、配置yarn-site.xml:

命令:vi /opt/hadoop-3.1.4/etc/hadoop/yarn-site.xml

<property>

    <name>yarn.application.classpath</name>

    <value>

/opt/hadoop-3.1.4/etc/hadoop:/opt/hadoop-3.1.4/share/hadoop/common/lib/*:/opt/hadoop-3.1.4/share/hadoop/common/*:/opt/hadoop-3.1.4/share/hadoop/hdfs:/opt/hadoop-3.1.4/share/hadoop/hdfs/lib/*:/opt/hadoop-3.1.4/share/hadoop/hdfs/*:/opt/hadoop-3.1.4/share/hadoop/mapreduce/lib/*:/opt/hadoop-3.1.4/share/hadoop/mapreduce/*:/opt/hadoop-3.1.4/share/hadoop/yarn:/opt/hadoop-3.1.4/share/hadoop/yarn/lib/*:/opt/hadoop-3.1.4/share/hadoop/yarn/*

     </value>

</property>

查看hadoop 的classpath变量

[root@demo sbin]# cd /opt/hadoop-3.1.4
[root@demo hadoop-3.1.4]#  hadoop classpath
/opt/hadoop-3.1.4/etc/hadoop:/opt/hadoop-3.1.4/share/hadoop/common/lib/*:/opt/hadoop-3.1.4/share/hadoop/common/*:/opt/hadoop-3.1.4/share/hadoop/hdfs:/opt/hadoop-3.1.4/share/hadoop/hdfs/lib/*:/opt/hadoop-3.1.4/share/hadoop/hdfs/*:/opt/hadoop-3.1.4/share/hadoop/mapreduce/lib/*:/opt/hadoop-3.1.4/share/hadoop/mapreduce/*:/opt/hadoop-3.1.4/share/hadoop/yarn:/opt/hadoop-3.1.4/share/hadoop/yarn/lib/*:/opt/hadoop-3.1.4/share/hadoop/yarn/*

配置yarn-site.xml
[root@demo hadoop-3.1.4]# cd etc/hadoop
[root@demo hadoop]# vi yarn-site.xml

5、启动集群&上传文件到集群:

cd到sbin文件夹 (/opt/hadoop-3.1.4/sbin),注意启动顺序:

命令:./start-dfs.sh

命令: ./start-yarn.sh

命令:./mr-jobhistory-daemon.sh start historyserver 或者  mapred --daemon start historyse

rver

在开始创建的wc00文件当中创建一个txt文件,存放需要查找的文本文件。

创建并添加一下word在wordfile.txt文件在中。

命令:vi  wordfile.txt

hello world hadoop

hive sqoop flume hello

kitty tom jerry world

hadoop
...        

[root@demo hadoop-3.1.4]# cd sbin
[root@demo sbin]# ./start-dfs.sh
[root@demo sbin]#  ./start-yarn.sh
[root@demo sbin]# ./mr-jobhistory-daemon.sh start historyserver
[root@demo sbin]# hdfs dfs -mkdir /input
[root@demo sbin]# cd
[root@demo ~]# hdfs dfs -ls /
Found 2 items
drwxr-xr-x   - root supergroup          0 2022-11-02 11:26 /input
drwxrwx---   - root supergroup          0 2022-10-19 16:12 /tmp
[root@demo ~]# cd ~/wc00
[root@demo wc00]# ls
WordCount.class                WordCount.jar   WordCount$TokenizerMapper.class
WordCount$IntSumReducer.class  WordCount.java  wordfile.txt

上传wordfile.txt到input
命令: hdfs dfs -put wordfile.txt /input

mhttp://192.168.199.150:50070/dfshealth.html#tab-overview

命令:hadoop jar WordCount.jar WordCount  /input /results

统计单词字数成功!

在master上操作,cd到sbin文件夹 (/opt/hadoop-3.1.4/sbin),注意关闭顺序:

[root@master sbin]# ./stop-dfs.sh

[root@master sbin]# ./stop-yarn.sh

[root@master sbin]#./mr-jobhistory-daemon.sh stop historyserver 或者 mapred --daemon stop historyserver

关机:

poweroff

可以按照以下步骤实现: 1. 打开文本文件并读取其中的内容。 2. 定义一个函数,用于统计给定单词在文本中出现的次数。在函数中,可以使用字符串处理函数 strtok() 将文本分割成单词,然后逐一比较每个单词是否与给定单词相同,若相同则累加计数器。 3. 定义另一个函数,用于检索输出某个单词出现在文本中的行号、在该行中出现的次数以及位置。在函数中,可以使用字符串处理函数 strstr() 在每一行中查找给定单词,若找到则输出行号、出现次数以及位置。 4. 关闭文件并结束程序。 下面是一份简单的实现代码,仅供参考: ```c #include <stdio.h> #include <string.h> #define MAX_LINE_LEN 1024 // 最大行长 #define MAX_WORD_LEN 64 // 最大单词长 // 统计给定单词在文本中出现的次数 int count_word(const char* filename, const char* word) { FILE* fp = fopen(filename, "r"); if (!fp) { perror("Failed to open file"); return -1; } char line[MAX_LINE_LEN]; int count = 0; while (fgets(line, MAX_LINE_LEN, fp)) { char* token = strtok(line, " \t\n\r"); // 分割单词 while (token) { if (strcmp(token, word) == 0) { count++; } token = strtok(NULL, " \t\n\r"); } } fclose(fp); return count; } // 检索输出某个单词出现在文本中的行号、在该行中出现的次数以及位置 void search_word(const char* filename, const char* word) { FILE* fp = fopen(filename, "r"); if (!fp) { perror("Failed to open file"); return; } char line[MAX_LINE_LEN]; int line_num = 1; while (fgets(line, MAX_LINE_LEN, fp)) { char* pos = line; int count = 0; while ((pos = strstr(pos, word))) { // 查找单词 count++; printf("Line %d, count %d, position %ld\n", line_num, count, pos - line + 1); pos += strlen(word); } line_num++; } fclose(fp); } int main() { const char* filename = "test.txt"; const char* word = "hello"; int count = count_word(filename, word); if (count >= 0) { printf("%s appears %d times in %s\n", word, count, filename); } search_word(filename, word); return 0; } ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值