MapReduce统计每个单词出现的次数

本文通过一个面试问题引入,探讨如何使用MapReduce统计大量单词的出现次数。首先提出简单的HashMap解决方案,然后针对大数据场景,提出采用分治思想,通过文件划分和线程池提升统计效率,以及使用hash取模策略确保相同key的单词在同一文件中。最后提到可以使用MQ和Redis进一步优化处理流程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前段时间出去面试被问到一个文件中存储了十亿个单词,如何统计每个单词出现的次数?其实思想就是map-reduce,今天有空写个demo试一下。抛开十亿个单词先不说,现在有100个单词你想想该如何统计? 很简单吧用hashmap如果key不存在则初始化value=1,如果key存在value+1。具体看下面demo

package mapreducetest;

import java.io.*;
import java.util.HashMap;
import java.util.Map;
import java.util.Random;


/**
 *  map-reduce统计文件每个单词出现的次数
 */
public class MapReduceTest {
   
    private String filePath;

    public MapReduceTest(String filePath) {
   
        this.filePath = filePath;
    }

    /**
     * 生成测试文件
     * 默认生成一千万的随机数,数字位于0-10000之间,每一行存储20个,用空格分割。
     *
     * @throws IOException
     */
    public void produceFile() throws IOException {
   
        int size = 10000000;
        int count = 0, rowCount = 1;
        BufferedWriter bw = null;
        Random random = new Random();
        try {
   
            bw = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(filePath)));
            while (count++ < size) {
   
                bw.write(random.nextInt(10000) + " ");
                if (rowCount++ == 20) {
   
                    bw.newLine();
                    rowCount = 1;
                }
            }
            bw.flush();
        } finally {
   
            bw.close();
        }
    }

    /**
     * reduce文件计数
     * 计算每个数字出现的次数
     * @return
     * @throws IOException
     */
    public Map<String, Integer> count() throws IOException {
   
        Map<String, Integer> countMap = new HashMap<>();
        BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream(filePath)));
        String line;
        try{
   
            while ((line = br.readLine()) != null) {
   
                String[] values = line.split(" ");
                for (String val : values) {
   
                    Integer oldVal = countMap.putIfAbsent
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值