利用mincemeat编写简单的MapReduce程序

最新推荐文章于 2025-08-13 10:25:05 发布

zdw12242

最新推荐文章于 2025-08-13 10:25:05 发布

阅读量5.4k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： python 算法文章标签： MapReduce 算法

本文链接：https://blog.youkuaiyun.com/zdw12242/article/details/8802080

该博客介绍如何利用mincemeat库编写MapReduce程序，对给定的源文件中每个作者的文章标题进行词频统计。内容涉及对作者及其对应文章的词项数量的计算，排除了停用词和特定字符。提供了源代码示例及程序运行截图，并在后续进行了更新，包括对作者词项频率的排序和字典排序的实现。此外，还分享了一个在线MapReduce计算的网站链接。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题描述：

提供若干个需要分析的源文件，每行都是如下的形式：

journals/cl/SantoNR90:::Michele Di Santo::Libero Nigro::Wilma Russo:::Programmer-Defined Control Abstractions in Modula-2.

代表：

paper-id:::author1::author2::…. ::authorN:::title

需要计算出每个作者对应的文章标题每个词项的数量，例如：

作者Alberto Pettorossi的结果为: program:3, transformation:2, transforming:2, using:2, programs:2, logic:2.

注意：每个文档id对应与多个作者，每个作者对应多个词项。词项不包含停用词，单个字母、连字符同样不计。

源代码如下：

# -*- coding: utf-8 -*-
#!/usr/bin/env python
import glob
import mincemeat

text_files=glob.glob('E:\\hw3data\\/*')

def file_contents(file_name):
    f=open(file_name)
    try:
        return f.read()
    finally:
        f.close()

source=dict((file_name,file_contents(file_name))
            for file_name in text_files)

# setup map and reduce