54、Hadoop：大数据处理的强大工具

反内卷战士508

于 2025-09-02 11:27:23 发布

阅读量50

点赞数

CC 4.0 BY-SA版权

分类专栏： Python数据科学实战精要文章标签： Hadoop MapReduce 大数据处理

本文链接：https://blog.youkuaiyun.com/nut55/article/details/151310440

Python数据科学实战精要专栏收录该内容

59 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

Hadoop：大数据处理的强大工具

1. Hadoop 概述

在互联网发展的早期，在线数据量就已经非常庞大。如今，网站数量近乎增长了千倍，搜索引擎每天要处理的搜索请求更是高达数万亿次。谷歌在开发搜索引擎时，为了快速返回搜索结果，采用了将大量计算机（节点）连接起来的集群系统，同时为保证系统在部分节点故障时仍能正常运行，构建了高度冗余机制。谷歌发布了相关设计，但未开源其软件。雅虎的程序员依据谷歌的设计构建了自己的系统，并将其开源，Apache 组织将该系统实现为 Hadoop。此外，谷歌的另外两篇论文也推动了 Hadoop 的发展。

1.1 Hadoop 的关键组件

Hadoop 主要包含以下关键组件：
- HDFS（Hadoop 分布式文件系统） ：用于在整个集群中存储大量数据。
- MapReduce ：用于实现处理数据的任务。

MapReduce 任务分为映射和归约两个步骤。映射步骤处理原始数据，将其转换为键 - 值对；归约步骤则将这些键 - 值对合并以产生最终结果。Hadoop 将数据分批分布到集群节点，并将 MapReduce 任务代码分发到各节点并行执行，最后使用 YARN 协调资源和调度任务。

1.2 Hadoop 生态系统

1.3 Hadoop 提供商

众多云服务提供商将 Hadoop 作为服务提供，如 Amazon EMR、Google Cloud DataProc、IBM Watson Analytics Engine、Microsoft Azure HDInsight 等。此外，Cloudera 和 Hortonworks 等公司提供集成的 Hadoop 生态系统组件和工具，还提供可在桌面运行的免费下载环境。

1.4 Hadoop 3

Apache 持续改进 Hadoop，Hadoop 3 于 2017 年 12 月发布，具有更好的性能和显著提高的存储效率。

2. 通过 MapReduce 总结《罗密欧与朱丽叶》中的单词长度

2.1 任务概述

使用 Microsoft Azure HDInsight 创建基于云的多节点计算机集群，利用该服务演示 Hadoop MapReduce 在集群上的运行。具体任务是确定《罗密欧与朱丽叶》文本文件中每个单词的长度，并总结每种长度的单词数量。

2.2 创建 Apache Hadoop 集群

大多数主要云服务提供商都支持 Hadoop 和 Spark 计算集群，可根据应用需求进行配置。这里使用 Microsoft Azure 的 HDInsight 服务创建集群，步骤如下：
1. 访问 https://azure.microsoft.com/en-us/free 注册账户，需提供信用卡进行身份验证。
2. 了解免费服务信息：https://azure.microsoft.com/en-us/free/free-account-faq/ 。
3. 按照以下链接的说明设置 Hadoop 集群：https://docs.microsoft.com/en-us/azure/hdinsight/hadoop/apache-hadoop-linux-create-cluster-get-started-portal 。
- 步骤 1 ：登录 https://portal.azure.com 访问 Azure 门户。
- 步骤 2 ：“Data + Analytics” 现称为 “Analytics”，HDInsight 图标和颜色可能与教程不同。
- 步骤 3 ：选择唯一的集群名称，创建密码，点击 “Create new” 并提供资源组名称。
- 步骤 5 ：点击 “Create new” 并提供仅包含小写字母和数字的唯一存储账户名称。

默认配置的集群成本较高，可进行如下修改以降低成本：

graph LR
    A[进入集群摘要页面] --> B[点击集群大小右侧的编辑]
    B --> C[将工作节点数量更改为 2]
    C --> D[点击工作节点大小，选择 D3 v2 并点击选择]
    D --> E[点击头节点大小，选择 D3 v2 并点击选择]
    E --> F[点击下一步两次返回集群摘要页面]
    F --> G[验证新配置，创建按钮启用后点击创建]

修改后，集群估计每小时成本为 1.18 美元。创建集群大约需要 20 - 30 分钟。

2.3 Hadoop 流式处理

对于 Python 等 Hadoop 原生不支持的语言，需使用 Hadoop 流式处理实现任务。Hadoop 流式处理中，Python 脚本通过标准输入和输出流与 Hadoop 通信，具体流程如下：
1. Hadoop 为映射脚本（mapper）提供输入，脚本从标准输入流读取。
2. 映射脚本将结果写入标准输出流。
3. Hadoop 将映射脚本的输出作为归约脚本（reducer）的输入，归约脚本从标准输入流读取。
4. 归约脚本将结果写入标准输出流。
5. Hadoop 将归约脚本的输出写入 Hadoop 文件系统（HDFS）。

2.4 实现映射器

以下是映射器脚本 length_mapper.py 的代码：

#!/usr/bin/env python3
# length_mapper.py
"""Maps lines of text to key-value pairs of word lengths and 1."""
import sys

def tokenize_input():
    """Split each line of standard input into a list of strings."""
    for line in sys.stdin:
        yield line.split()

# read each line in the the standard input and for every word 
# produce a key-value pair containing the word, a tab and 1
for line in tokenize_input():
    for word in line:
        print(str(len(word)) + '\t1')

该脚本将输入的文本行映射为键 - 值对，键为单词长度，值为 1。

2.5 实现归约器

以下是归约器脚本 length_reducer.py 的代码：

#!/usr/bin/env python3
# length_reducer.py
"""Counts the number of words with each length."""
import sys
from itertools import groupby
from operator import itemgetter

def tokenize_input():
    """Split each line of standard input into a key and a value."""
    for line in sys.stdin:
        yield line.strip().split('\t')

# produce key-value pairs of word lengths and counts separated by tabs
for word_length, group in groupby(tokenize_input(), itemgetter(0)):
    try:
        total = sum(int(count) for word_length, count in group)
        print(word_length + '\t' + str(total))
    except ValueError:
        pass  # ignore word if its count was not an integer

该脚本将映射器输出的键 - 值对按键分组，计算每个键对应的总计数。

2.6 准备运行 MapReduce 示例

在命令提示符、终端或 shell 中，切换到包含映射器、归约器脚本和 RomeoAndJuliet.txt 文件的文件夹。使用以下命令将文件上传到 HDInsight Hadoop 集群：

scp length_mapper.py length_reducer.py RomeoAndJuliet.txt YourClusterName-ssh.azurehdinsight.net:

请将 YourClusterName 替换为设置 Hadoop 集群时指定的名称。

3. 运行 MapReduce 任务

3.1 提交任务

在将所需文件上传到 HDInsight Hadoop 集群后，就可以提交 MapReduce 任务了。可以使用以下命令提交任务：

hadoop jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-streaming.jar \
-input /user/sshuser/RomeoAndJuliet.txt \
-output /user/sshuser/output \
-mapper /user/sshuser/length_mapper.py \
-reducer /user/sshuser/length_reducer.py

3.2 查看任务结果

任务提交后，Hadoop 会自动分配集群资源并执行任务。任务完成后，可以使用以下命令查看结果：

hdfs dfs -cat /user/sshuser/output/part-00000

这个命令会将任务输出文件的内容显示在终端上，输出结果是每个单词长度及其对应的单词数量的键 - 值对。

3.3 任务执行流程总结

下面是 MapReduce 任务执行的流程图：

graph LR
    A[输入数据：RomeoAndJuliet.txt] --> B[Hadoop 分发数据到节点]
    B --> C[映射器处理数据]
    C --> D[生成键 - 值对]
    D --> E[Hadoop 收集键 - 值对并分组]
    E --> F[归约器处理分组数据]
    F --> G[生成最终结果]
    G --> H[存储结果到 HDFS]

4. 总结与注意事项

4.1 总结

通过以上步骤，我们成功地使用 Hadoop MapReduce 对《罗密欧与朱丽叶》文本文件中的单词长度进行了统计。整个过程包括创建 Hadoop 集群、实现映射器和归约器脚本、上传文件到集群、提交任务以及查看结果。Hadoop 提供了强大的分布式计算能力，能够高效地处理大规模数据。

4.2 注意事项

成本控制 ：使用云服务提供商的 Hadoop 集群时，要注意控制成本。在不使用集群时，及时删除集群和相关资源，避免不必要的费用。
Python 版本 ：在编写 Python 脚本时，要注意集群上安装的 Python 版本。由于集群可能没有 Python 3.6 或更高版本，不能使用 f - 字符串等新特性。
文件路径 ：在上传文件和提交任务时，要确保文件路径的正确性，否则会导致任务失败。

4.3 未来展望

Hadoop 作为大数据处理的重要工具，不断发展和完善。未来，随着数据量的不断增长，Hadoop 及其生态系统将在更多领域发挥重要作用，如人工智能、物联网等。同时，也可以结合其他大数据技术，如 Spark、NoSQL 数据库等，进一步提高数据处理的效率和性能。

4.4 操作步骤回顾

为了方便大家回顾整个操作过程，下面是一个操作步骤的列表总结：
1. 注册 Microsoft Azure 账户并获取免费额度。
2. 创建 Apache Hadoop 集群，可根据需求调整集群配置以降低成本。
3. 编写映射器和归约器脚本。
4. 将脚本和输入文件上传到集群。
5. 提交 MapReduce 任务。
6. 查看任务结果。
7. 任务完成后，删除集群和相关资源以避免费用。

通过以上步骤，你可以深入了解 Hadoop MapReduce 的工作原理和使用方法，为处理大规模数据打下坚实的基础。