三行命令解决spark词频统计

本文介绍如何仅用三行代码在Spark中完成词频统计任务:首先使用textFile加载文本,接着利用flatMap()生成单词键值对,最后通过reduceByKey()汇总词频。代码简洁高效,适用于大数据处理场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

三行命令解决spark词频统计

如何通过三行命令解决词频统计问题
1、使用textFile加载文本
2、使用flatMap()生成以单词为键,数字1为值的RDD
3、使用reduceByKey()对所有单词进行过统计

原文档如下

在这里插入图片描述

命令如下
val input=sc.textFile("file:///media/hadoop/Ubuntu/word.txt")
val words=input.flatMap(x=>x.split(" "))
val result=words.map(x=>(x,1)).reduceByKey(_+_).foreach(println)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值