Spark3.2教程(二)Windows下Spark Shell编程实现词频统计

本文介绍如何使用Spark进行词频统计编程,通过具体实例演示了从读取文件到完成词频统计的整个过程,读者将了解如何利用Spark的APIs进行数据处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Spark提供了两种方式编程方式:
spark-shell
是一个基于Scala语言的交互式解释器,可以在此直接编写Scala执行。
spark-submit
Spark submit是一个命令, 用于提交 Scala 编写的基于 Spark 框架, 这种方式可以支撑在开发工具中开发玩Scala代码之后,在集群中运行任务。

下面我们准备Spark Shell词频统计编程的单词文件,放在D://test/words.txt

apple orange pear
banana lemon apple 
pear peach orange

在CMD中打开Spark Shell,输入以下代码:

读取文件,注意是file:后是一个斜杠,如果是读取hdfs里面则是hdfs://

 val rdd1=sc.textFile("file:/d:/test/words.txt")

将单词根据空格分隔,并放到一个容器中

val rdd2=rdd1.flatMap(item=>item.split(" "))

跟容器中的单词赋予词频计数1

val rdd3=rdd2.map(item=>(item,1))

对容器中的元素,以单词为key进行技术的相加聚合

val rdd4=rdd3.reduceByKey((curr,agg)=>curr+agg)

数据展示

rdd4.collect()

结果:
在这里插入图片描述

可见,要使用Spark编程,需要提前掌握Scala语言。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值