MapReduce统计每个单词出现的次数

丁金阳

已于 2024-08-22 15:50:48 修改

阅读量1k

点赞数

文章标签： mapreduce java jvm

于 2022-10-15 20:14:38 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_38965431/article/details/127336310

版权

本文通过一个面试问题引入，探讨如何使用MapReduce统计大量单词的出现次数。首先提出简单的HashMap解决方案，然后针对大数据场景，提出采用分治思想，通过文件划分和线程池提升统计效率，以及使用hash取模策略确保相同key的单词在同一文件中。最后提到可以使用MQ和Redis进一步优化处理流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前段时间出去面试被问到一个文件中存储了十亿个单词，如何统计每个单词出现的次数？其实思想就是map-reduce,今天有空写个demo试一下。抛开十亿个单词先不说，现在有100个单词你想想该如何统计? 很简单吧用hashmap如果key不存在则初始化value=1,如果key存在value+1。具体看下面demo

package mapreducetest;

import java.io.*;
import java.util.HashMap;
import java.util.Map;
import java.util.Random;


/**
 *  map-reduce统计文件每个单词出现的次数
 */
public class MapReduceTest {
   
    private String filePath;

    public MapReduceTest(String filePath) {
   
        this.filePath = filePath;
    }

    /**
     * 生成测试文件
     * 默认生成一千万的随机数，数字位于0-10000之间，每一行存储20个,用空格分割。
     *
     * @throws IOException
     */
    public void produceFile() throws IOException {
   
        int size = 10000000;
        int count = 0, rowCount = 1;
        BufferedWriter bw = null;
        Random random = new Random();
        try {
   
            bw = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(filePath)));
            while (count++ < size) {
   
                bw.write(random.nextInt(10000) + " ");
                if (rowCount++ == 20) {
   
                    bw.newLine();
                    rowCount = 1;
                }
            }
            bw.flush();
        } finally {
   
            bw.close();
        }
    }

    /**
     * reduce文件计数
     * 计算每个数字出现的次数
     * @return
     * @throws IOException
     */
    public Map<String, Integer> count() throws IOException {
   
        Map<String, Integer> countMap = new HashMap<>();
        BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream(filePath)));
        String line;
        try{
   
            while ((line = br.readLine()) != null) {
   
                String[] values = line.split(" ");
                for (String val : values) {
   
                    Integer oldVal = countMap.putIfAbsent

最低0.47元/天解锁文章