文章目录
- 一、词频统计设计思路
- 二、词频统计实现步骤
-
- 1、创建Maven项目MRWordCount
- 2、在项目根目录创建words.txt文件
- 3、启动HDFS服务,上传文件到HDFS
- 4、修改pom.xml文件,添加hadoop依赖
- 5、在resources目录下创建log4j.properties文件
- 6、创建WordCountMapper类
- 7、创建WordCountDriver类
- 8、在虚拟机上启动yarn服务
- 9、启动WordCountDriver,看看结果
- 10、修改WordCountMapper
- 11、修改WordCountDriver
- 12、启动WordCountDriver,查看运行结果
- 13、创建WordCountReducer
- 14、修改WordCountDriver,设置WordCountReducer
- 15、启动WordCountDriver,查看结果
- 16、将MRWordCount打jar包上传到虚拟机上运行
- 17、改善程序,用户可指定输入路径和输出路径
- 18、清洗标点符号
- 19、切片数量问题
- 20、采用多个Reduce做合并
- 21、将三个类合成一个类完成词频统计
- 22、合并分区导致的多个结果文件
- 23、统计一个或多个文件里总共有多少个不同单词
- 三、项目MRWordCount下载
词频统计是MapReduce的入门案例,类似于学习程序设计的“Hello World”案例。