大数据_Spark框架_快速上手_word count 案例分析---Spark工作笔记0005

添柴程序猿

于 2022-02-14 09:00:00 发布

阅读量350

点赞数

CC 4.0 BY-SA版权

分类专栏：测试&部署&运维实施文章标签： spark big data 大数据

本文为博主原创文章，未经博主添柴程序猿允许不得转载违者追究法律责任。

本文链接：https://blog.youkuaiyun.com/lidew521/article/details/122893900

测试&部署&运维实施专栏收录该内容

312 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文通过一个简单的Word Count案例，介绍如何使用Spark框架进行大数据处理。首先展示了包含hello scala和hello spark的两个文本文件，然后阐述了统计单词频率的步骤：列出所有单词、合并相同单词并计算数量。这是理解Spark工作原理的一个基础实践。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

然后在做案例之前，我们先来去分析一案例。

可以看到左边有两个文件，一个是1.txt，一个是2.txt，每个文件当中都有两句话，一句话是hello scala，一句话是hello spark。我们就是要把这几句话中的单词都统计出来。

要统计出来这两个文件中所出现的单词的频率，

首先我们可以把两个文件中所有的单词都列出来，然后我们把所有的单词,相同的单词放在一块

把单词放在一块了以后

然后我们就可以去统计所有单词的数量了

这就是我们实现这个案例的思路;

技术交流QQ群【JAVA,C++,Python,.NET,BigData,AI】：170933152
优快云账号:脑瓜凉
开通了个人技术微信公众号:脑瓜凉,有需要的朋友可以添加相互学习

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

添柴程序猿 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。