Hadoop编程实现统计单词词频并找出词频最高的单词（hadoop3.1.1 Centos7）

最新推荐文章于 2022-03-07 19:58:57 发布

原创最新推荐文章于 2022-03-07 19:58:57 发布 · 1.6k 阅读

3 ·

CC 4.0 BY-SA版权

Linux 专栏收录该内容

8 篇文章

订阅专栏

本文提供了一步一步的指南，教你如何使用Hadoop3.1.1进行词频统计，从环境配置到运行jar包，详细介绍了在Hadoop环境下部署和执行MapReduce任务的全过程。

不能盲目寻找一些技术博文来浏览，非常浪费时间，最靠谱的方式莫过于官方文档

hadoop3.1.1 运行词频统计的官方指导文档如下：

https://hadoop.apache.org/docs/r3.1.1/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html

按照文档所提示的内容主要可分为以下几个步骤：

1.配置/etc/profile

export JAVA_HOME=/usr/java/default
export PATH=${JAVA_HOME}/bin:${PATH}
export HADOOP_CLASSPATH=${JAVA_HOME}/lib/tools.jar

2.将程序移至 hadoop-X.X.X目录下，打包成wc.jar ,执行以下命令

$ bin/hadoop com.sun.tools.javac.Main WordCount.java
$ jar cf wc.jar WordCount*.class

3.运行jar文件，后面为两文件在HDFS中的绝对路径，参数的设置取决于程序

 bin/hadoop jar wc.jar WordCount /user/joe/wordcount/input /user/joe/wordcount/output

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

HerinaYang

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

掌握大数据领域Hadoop的编程模型

移动开发前沿的博客

09-12

982

Hadoop作为大数据生态的基石，其编程模型的演进（从MapReduce到YARN）重塑了大规模数据处理的范式。本文从第一性原理分而治之的计算框架（MapReduce）与资源管理的解耦架构（YARN）。通过层次化解释（入门→中级→专家），覆盖概念基础、理论框架、架构设计、实现机制、实际应用及未来演化，结合数学形式化（MapReduce函数模型）、可视化架构（Mermaid图表）与生产级代码示例（WordCount优化实现），揭示Hadoop在大数据处理中的不可替代性与局限性，并为企业级应用提供战略优化建议。

hadoop 中文词频排序 top-k 问题

热门推荐

dengjiexian123的专栏

03-22

1万+

本人最近一直在hadoop领域，摸爬滚打，由于最近老是布置了一项作业：让统计一个文件中出现次数最高的单词。一看到题目我就想用hadoop来实现这个问题，由于有现成的wordcount框架，所以就在这之上进行程序的修改添加即可。准备过程： 1、我去下载了金庸的小说全集，顺便分析分析，看他老人家笔下，谁的戏份更重。 2、由于是中文分词，所以必须要有一个中文分词器，找到了

参与评论您还未登录，请先登录后发表或查看评论

基于hadoop实现输出出现频率最高的20个词

01-06

《hadoop实战》中用老api写了TopOne，没有写topN，所以我就用新api，采用多job级联的方式实现了TopN，共大家参考。

Hadoop大作业——单词个数统计

JXZKLJKA的博客

12-22

1274

目录使用VirtualBox安装Ubuntu 你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：全新的界面设计，将会带来全新的写作体验；在创作中心设置你喜爱的代码高亮样式，Markdown 将代码片显示选择的高亮样式进行展示

初学Hadoop,统计Top10单词

iteye_6463的博客

08-31

710

课程明明叫SeachTechnology，本以为可以趁机好好学一下Lucene和Nutch，结果Project却是使用分布式计算框架Map/Reduce的开源项目Hadoop进行文档关键词的自动提取，算了，既来之则安之，都是Doug Cutting的作品啊。 Project要求是给定250个文章的摘要（trial data），通过三个步骤 1.preprocessing such as Par...

hadoop实例分析之WordCount单词统计分析

02-26

8008

WordCount单词统计分析最近在网上看了hadoop相关资料以及单词计数的一个实例，结合网上的资料和自己的看法简要分析一下执行过程。 MyMapper.java package com.mpred; import java.io.IOException; import org.apache.hadoop.io.IntWritable; imp

【Hadoop】YouTube 视频数据集分析实验 (原理+过程+代码)

闻韶

04-02

3644

随着近年来视频拍摄设备与视频处理技术的高速发展，对网络上海量视频的分析越来越受到关注与重视。本实验希望通过使用 Hadoop 实验数据集 —— Dataset for "Statistics and Social Network of YouTube Videos" 进行简明的分析实验，从而加深对大数据分析的体会与认识、对 Hadoop、MapReduce 等的理解与应用。

大数据分析快速上手：掌握Hadoop生态系统关键技能

本文首先概述了大数据与Hadoop的背景，随后深入解析了Hadoop的核心组件，包括HDFS的工作原理、MapReduce编程模型以及YARN资源管理。接着，对Hadoop生态系统中的扩展组件进行了探讨，重点阐述了Hive、HBase和...

揭秘Hadoop生态系统：大数据分析的10个最佳实践

本文首先对Hadoop生态系统进行概览，然后深入解析了其核心组件，包括HDFS、MapReduce编程模型和YARN资源管理。接着，文章详细介绍了Hadoop集群的搭建、维护以及性能监控和调优，最后探讨了Hadoop生态系统工具在数据...

Hadoop数据流全解析：揭秘数据流动的秘密

![Hadoop数据流全解析：揭秘数据流动的秘密]...Hadoop，作为大数据处理领域的明星框架，通过其数据流处理能力在各个行业中展现出强大的生命力。数据流是指数据在Hadoop生态系统中流动的路径和处理

【大数据入门必备】：0基础快速掌握Hadoop核心原理

它由Apache软件基金会支持，并在Java语言中实现。Hadoop的设计初衷是能够可靠地运行在廉价硬件上，并提供高吞吐量的数据处理能力。Hadoop不仅包括了用于存储大数据的HDFS（Hadoop Distributed File Sys

Hadoop词频统计（完整版）

01-05

完整的词频统计MapReduce版本。基于Hadoop2.2.0，包含一个十万单词左右的测试文件。请参照 http://blog.csdn.net/zythy/article/details/17888439 获取详细解说。

Hadoop自带WordCount进行词频统计（mapreduce）

weixin_43322782的博客

12-10

8651

Hadoop自带WordCount进行词频统计准备：安装好的Hadoop 需要统计词频txt文件 step1 启动Hadoop cd /usr/local/hadoop ./sbin/start-all.sh 用jps命令查看是否开启成功准备好需要统计词频的txt文件（也可以用filezilla传入Ubuntu）链接: 如何用filezilla连接Ubuntu. 找到Hadoop文件所在位置把需要计算词频的文件放在Hadoop文件下 step2 使用Hadoo

【大数据实验】Mapreduce的应用：统计词频，输出出现次数最多的前十个单词

二琳爱吃肉的博客

12-11

5275

package sy; import java.io.IOException; import java.util.Collections; import java.util.Comparator; import java.util.HashMap; import java.util.LinkedList; import java.util.List; import java.util.Map; import java.util.Map.Entry; import org.apache.hadoop.co.

Hadoop 词频统计（续）

zythy的专栏

01-05

7045

基于Hadoop2.2.0的词频统计实例，最终结果按出现频率排序。

使用Hadoop和Spark实现TopN算法（1）——唯一键

ReyzeLamp的博客

10-02

905

0.简介　　TopN算法是一个经典的算法，由于每个map都只是实现了本地的TopN算法，而假设map有M个，在归约的阶段只有M x N个，这个结果是可以接受的并不会造成性能瓶颈。　　这个TopN算法在map阶段将使用TreeMap来实现排序，以到达可伸缩的目的。　　当然算法有两种，一种是唯一键，就是说key的类型是唯一的（是指在比较的实际阶段），比如本篇就是唯一键的TopN

学习篇-Hadoop-MapReduce-词频统计

东东爱编码博客

04-30

4034

文章目录一、Hadoop-MapReduce-词频统计-Mapper二、Hadoop-MapReduce-词频统计-Reducer三、Hadoop-MapReduce-词频统计-Driver 一、Hadoop-MapReduce-词频统计-Mapper 简要说明：Maps input key/value pairs to a set of intermediate key/value pairs....

提交第一个Spark统计文件单词数程序，配合hadoop hdfs

weixin_34146410的博客

11-03

516

2019独角兽企业重金招聘Python工程师标准>>> ...

唐诗三百首出现最多的字是什么？大数据分析告诉你

wwwyuewww的专栏

03-07

6476

一个人要是长时间一直做一件事，思维容易固化。就像那些从太空回来的宇航员，吃饭时容易丢开拿在手里的勺子。当勺子掉在地上时，哦，我已经回到地球了^_^。所以，适当尝试新鲜事物，既是对大脑的放松，也是开阔思路的好机会，好方法。那这次，博主尝试的新事物是什么呢？我们知道，大、物、移、智、云是近些年比较火的技术，具体来讲就是大数据、物联网、移动5G、人工智能、云计算。每一个都显得高大上。所以，博主决定在其中选择一个来学习学习。其实，这些技术并不是割裂的，而是有内在的本质联系的，具体可参考博主的另一篇博

Hadoop MapReduce实现大数据词频统计方法

词频统计作为数据分析的入门案例，在MapReduce编程中占有特殊的地位，下面将详细解释在Hadoop平台上使用MapReduce进行词频统计的相关知识点。 ### Hadoop平台基础 Hadoop是一个由Apache基金会开发的开源软件框架，...

Hadoop编程 实现统计单词词频并找出词频最高的单词（hadoop3.1.1 Centos7）

Hadoop编程实现统计单词词频并找出词频最高的单词（hadoop3.1.1 Centos7）