spark java world-count例子

最新推荐文章于 2023-05-09 09:58:53 发布

SoLucky2017

最新推荐文章于 2023-05-09 09:58:53 发布

阅读量325

点赞数

CC 4.0 BY-SA版权

分类专栏： hadoop 架构

本文链接：https://blog.youkuaiyun.com/ssllkkyyaa/article/details/89843050

架构同时被 2 个专栏收录

37 篇文章

订阅专栏

hadoop

25 篇文章

订阅专栏

博客介绍了Spark开发相关内容。包括在项目中导入spark包的方法，以及将程序导出为jar包并上传至spark集群运行的步骤。还给出了一段Spark的Java代码示例，最后提供了相关demo的百度网盘链接及提取码。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

导入spark包

在项目页“File” -> "project structure" -> "Libraries", 点“+”，选“java”，找到spark-assembly-1.2.0-hadoop2.4.0.jar导入，这样就可以编写spark的scala程序了（例子有空补）

下载spark的jar包，在下载页面选择相应的spark版本，包类型这里选择spark1.2.0，和Pre-build for Hadoop 2.4进行下载spark-1.2.0-bin-hadoop2.4.tgz，解压， lib下的spark-assembly-1.2.0-hadoop2.4.0.jar是所需要的；

程序导出

如果在spark上运行程序，需要将程序导出为jar包，并将jar包上传至spark集群运行。导出jar包分为两步：

1）在项目页“File” -> "project structure" ->"Artifacts", 点“+”，选“JAR”->"from modules with dependencies .."，在弹出的Create Jar from Modules中选择Module和MainClass，点“OK”，然后分别选择到导出的Jar包名，导出路径，导出文件，点“OK”;

2) 在项目页“Build”->"Build Artifacts"，选择相应的jar包，build即可在目录下生成相应jar包

code部分

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import scala.Tuple2;

import java.util.Arrays;
import java.util.Iterator;

public class testMain {
    public static void main(String args[]){
        SparkConf conf=new SparkConf();
        conf.setMaster("local[4]");//线程模拟
        conf.setAppName("WCApp");
        JavaSparkContext context=new JavaSparkContext(conf);

        JavaRDD<String> rdd=context.textFile("D:/in.txt");
        JavaRDD<String> words =rdd.flatMap(new FlatMapFunction<String, String>() {
            public Iterator<String> call(String s) throws Exception {
                return   Arrays.asList(s.split(" ")).iterator();
            }
        });
        JavaPairRDD<String,Integer> counts=words.mapToPair(new PairFunction<String, String, Integer>() {
            public Tuple2<String, Integer> call(String s) throws Exception {
                return new Tuple2(s,1);
            }
        }).reduceByKey(new Function2<Integer, Integer, Integer>() {
            public Integer call(Integer integer, Integer integer2) throws Exception {
                return integer+integer2;
            }
        });
//        rdd.flatMap();
        counts.saveAsTextFile("d:/out.txt");
    }
}