使用Eclipse基于Maven使用Java开发WordCount程序项目

最新推荐文章于 2020-07-28 16:40:57 发布

原创最新推荐文章于 2020-07-28 16:40:57 发布 · 698 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#java #maven #Hadoop #Spark #大数据

Spar 同时被 3 个专栏收录

1 篇文章

订阅专栏

1 篇文章

订阅专栏

0 篇文章

订阅专栏

本文指导如何在Java环境中配置并使用Maven、Hadoop、Spark等技术进行大数据分析，从下载安装到创建Maven项目、开发WordCount程序，直至运行与后续优化，全程详细步骤演示。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.前提条件

下载JavaEE Eclipse ，自带Maven

安装好JDK1.8

下载并配置了Hadoop 2.6.x

2.创建Maven Project

选择 Maven-archetype-quickstart 选项

将项目的 JRE换成 JDK1.8，点击编辑选择系统的1.8版本

配置POM文件，为了以后写程序方便，pom.xml使用以下内容替换对应内容：

Ctrl+s保存后

Eclipse会下载相关的Jar文件

关于pom.xml文件的配置，可以通过以下网站

（ Maven中央仓库信息速查 http://maven.outofmemory.cn/org.apache.spark/ ）搜索并对照修改，

如要查找 spark-streaming_2.10 的依赖包的话，可以点击并对应找到。

如果下载更新时出现错误，可以点击右键，然后选择“Quck Fix”

查看包已经正确下载了

3.开发程序

在src下面建立一个WordCount类，然后编写如下代码

/**

* @author yuming

* ail: ymzhang@foxmail.com

* weibo: http://www.weibo.com/yumzhang

*/

public class WordCount {

public static void main(String[] args) {

//设置应用程序的名称和运行模式(本地)

SparkConf conf = new SparkConf()

.setAppName("Spark WordCount by Java.").setMaster("local");

//创建Java SparkContext,

//通往天堂之门（去集群的唯一通道）

JavaSparkContext sc = new JavaSparkContext(conf);

//使用本地数据源来创建JavaRDD

JavaRDD<String> lines = sc.textFile("H://ScalaTraining//shell//README.md");

//对初始的JavaRDD进行Transformation级别的处理，例如Map、Filter高阶函数的编程

//对每行进行拆分，

JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {

@Override

public Iterable<String> call(String line) throws Exception { //

return Arrays.asList(line.split(" "));

}

});

//对单词实例进行计数为1

JavaPairRDD<String,Integer> pairs = words.mapToPair(new PairFunction<String, String, Integer>() {

@Override

public Tuple2<String, Integer> call(String word) throws Exception {

return new Tuple2<String,Integer>(word,1) ;

}

});

// 统计每个单词在文件中出现的总次数

JavaPairRDD<String,Integer> wordsCount =

pairs.reduceByKey(new Function2<Integer, Integer, Integer>() {

// 对相同的key，对value进行累加，可以local和reducer级别同时reduce，提高网络带宽利用率

@Override

public Integer call(Integer v1, Integer v2) throws Exception {

return v1 + v2;

}

});

wordsCount.foreach(new VoidFunction<Tuple2<String,Integer>>() {

@Override

public void call(Tuple2<String, Integer> pairs) throws Exception {

System.out.println(pairs._1 + ":" + pairs._2);

}

});

//关闭sc上下文

sc.close();

}

}

4.运行程序：

Run As Java Application

5.后续：

如果程序运行时能够正常出现结果，但是会运行时报错：

在Hadoop的bin目录中放上，这两个文件，就解决问题了(访问我的百度云： http://pan.baidu.com/s/1eRwh1XC )

再次执行不再报错误信息。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。