经典案例【词频统计】十一种实现方式

酒城译痴无心剑

已于 2022-05-17 22:55:26 修改

阅读量1.4k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：探索大数据-从Hadoop到Flink 文章标签：经典案例词频统计一题多解

于 2022-05-14 23:27:45 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/howard2005/article/details/124775734

探索大数据-从Hadoop到Flink 专栏收录该内容

236 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了利用Java、Scala、Python、Akka、MapReduce、Hive、Storm、Spark RDD、Spark SQL、Spark Streaming和Flink等工具实现词频统计的方法，包括创建项目、数据处理、统计实现和查看结果的步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

一、利用Java程序实现词频统计
- （一）创建Java项目
- （二）创建数据文件
- （三）创建词频统计类
- （四）运行程序，查看结果
二、利用Scala程序实现词频统计
- （一）创建Scala项目
- （二）创建数据文件
- （三）创建词频统计单例对象
- （四）运行程序，查看结果
三、利用Python程序实现词频统计
- （一）创建Python项目
- （二）创建数据文件
- （三）使用Python字典实现词频统计
- （四）使用collections的Counter实现词频统计
四、利用Akka和Scala实现词频统计
- （一）创建Scala项目
- （二）创建数据文件
- （三）创建AKKAUtils单例对象，提供函数获取akka配置
- （四）创建WcInfo1，封装从WcDriver发往WcMapper的数据
- （五）创建WcInfo2，封装从WcMapper发往WcReducer的数据
- （六）创建WcDriver单例对象
- （七）创建WcMapper单例对象
- （八）创建WcReducer单例对象
- （九）启动程序，查看结果
五、利用MapReduce来实现词频统计
- （一）启动HDFS服务
- （二）启动YARN服务
- （三）上传数据文件到HDFS
- （四）创建Maven项目
- （五）添加相关依赖
- （六）创建日志属性文件
- （七）创建词频统计映射器
- （八）创建词频统计归约器
- （九）创建词频统计驱动器
- （十）启动词频驱动器，查看结果
六、利用Hive实现词频统计
- （一）启动HDFS服务
- （二）启动YARN服务
- （三）使用HDFS上的数据文件
- （四）启动Hive Metastore服务
- （五）启动Hive客户端
- （六）创建外部表
- （七）进行词频统计
七、利用Storm实现词频统计
- （一）解决思路
- （二）实施步骤
八、利用Spark RDD实现词频统计
- （一）在Scala版Spark Shell里完成任务
- - 1、分步实施
  - 2、一步完成
- （一）在Python版Spark Shell里完成任务
- - 1、分步实施
  - 2、两步完成
九、利用Spark SQL实现词频统计
- （一）在Spark Shell里完成任务
- （二）在IDEA里编写Scala程序完成任务
十、利用Spark Streaming实现词频统计
- （一）提出任务
- （二）完成任务
十一、利用Flink实现词频统计
- （一）Java版Flink实现词频统计
- （二）Scala版Flink实现词频统计
1948 年 5 月 15 日：Windows 95 启动音乐设计者 Brian Eno 出生

数据文件 - test.txt

一、利用Java程序实现词频统计

（一）创建Java项目

创建Java项目 - JavaWordCount

（二）创建数据文件

在项目根目录创建数据文件 - test.txt

（三）创建词频统计类

创建net.hw.wc包，在包里创建WordCount类

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

酒城译痴无心剑 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。