通过hadoop自带的demo运行单词统计

本文介绍了使用Hadoop进行WordCount实例操作的具体步骤,包括文件创建、上传到HDFS、运行WordCount作业及查看结果等过程。通过这些步骤,读者可以了解如何在Hadoop上执行简单的文本处理任务。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1)mkdir input

2)cd  intput

3)echo “hello word” > file1.txt

4)echo “hello hadoop” > file2.txt

5)echo “hello mapreduce” >> file2.txt

6) more file2.txt

7) hadoop fs -mkdir  /wc_input

8) hadoop fs -ls /

9) hadoop fs -put ~/input/fi* /wc_input

10)hadoop fs -ls  /wc_input

11) hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /wc_input /output

12)hadoop fs -ls /output

13)hadoop fs -cat /output/part-r-00000


执行结果截图:



### IntelliJ IDEA 和 Apache Spark 的集成及使用教程 #### 创建 Spark 项目 启动IntelliJ IDEA并创建一个新的项目。选择`File -> New Project`,在弹出窗口中选择`Scala`作为主要语言,并勾选`Create project from template`下的`SBT`选项来简化依赖管理过程[^1]。 #### 添加 Spark 依赖项 为了使项目能够利用 Spark 功能,在项目的构建文件 `build.sbt` 中添加必要的库依赖声明。对于版本控制,请确保指定的 Spark 版本与集群中的版本相匹配。例如: ```sbt name := "SparkDemo" version := "0.1" scalaVersion := "2.11.8" libraryDependencies += "org.apache.spark" %% "spark-core" % "2.3.2" ``` 这段代码定义了一个名为 SparkDemo 的 Scala 应用程序,并指定了所需的 Spark Core 库及其版本号[^2]。 #### 编写 Spark 程序 编写简单的 Spark 程序可以验证环境设置是否成功。下面是一个基本的例子,它计算给定文本字符串中单词的数量: ```scala package com.tipdm.sparkdemo import org.apache.spark.{SparkConf, SparkContext} object WordCount { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("Word Count").setMaster("local[*]") val sc = new SparkContext(conf) val lines = sc.parallelize(Seq("hello world", "hello spark")) val words = lines.flatMap(_.split(" ")) val wordCounts = words.map((_, 1)).reduceByKey(_ + _) println(wordCounts.collect().mkString(", ")) } } ``` 此代码片段展示了如何初始化 Spark 上下文以及执行简单转换操作以统计词频。 #### 构建和部署应用 完成编码之后,可以通过 SBT 插件直接从 IDE 内打包应用程序为 JAR 文件。右键点击项目根目录,选择`Make Module 'ModuleName'`编译源码;接着通过命令行工具 sbt 或者 Intellij 自带终端输入`sbt assembly`生成可分发 jar 包[^3]。 最后一步是在实际 Hadoop/Spark 集群上测试该 Jar 文件。这通常涉及到将作业提交到 YARN 资源调度器或其他类似的机制上来运行分布式处理任务。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值