Spark 实现word count

最新推荐文章于 2025-06-19 15:19:16 发布

一只小菜鸟(*￣︶￣)

最新推荐文章于 2025-06-19 15:19:16 发布

阅读量2.7k

点赞数 3

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/mao502010435/article/details/89676107

这篇博客介绍了如何在Spark上实现Word Count。通过SparkContext作为Spark程序的入口点，创建RDD并进行操作。文章详细阐述了Scala和Java两种方式实现Word Count的程序，并提到了提交作业到Spark集群的步骤，包括配置Scala版本、IDE设置以及打包和提交命令。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

API
[SparkContext]
Spark程序的入口点，封装了整个spark运行环境的信息。

代表到Spark集群的连接，可以创建RDD、累加器和广播变量.
每个JVM只能激活一个SparkContext对象，在创建sc之前需要stop掉active的sc。

[RDD]
resilient distributed dataset,弹性分布式数据集。等价于集合。

spark配置对象，设置Spark应用各种参数，kv形式

spark实现word count

//加载文本文件,以换行符方式切割文本.Array(hello  world2,hello world2 ,...)
	val rdd1 = sc.textFile("/home/centos/test.txt");
	//单词统计1
	$scala>val rdd1 = sc.textFile("/home/centos/test.txt")
	$scala>val rdd2 = rdd1.flatMap(line=>line.split(" "))
	$scala>val rdd3 = rdd2.map(word = > (word,1))
	$scala>val rdd4 = rdd3.reduceByKey(_ + _)
	$scala>rdd4.collect

//单词统计2
	sc.textFile("/home/centos/test.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_ + _).collect

//统计所有含有wor字样到单词个数。filter
//过滤单词
	sc.textFile("/home/centos/test.txt").flatMap(_.split(" ")).filter(_.contains("wor")).map((_,1)).reduceByKey(_ + _).collect

scala程序，引入spark类库，完成wordcount

pom

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</mode