MacOS Hadoop开发环境

最新推荐文章于 2024-07-12 10:22:10 发布

齐豪

最新推荐文章于 2024-07-12 10:22:10 发布

阅读量371

点赞数

CC 4.0 BY-SA版权

分类专栏： Linux

本文链接：https://blog.youkuaiyun.com/qq_33096883/article/details/90749012

Linux 专栏收录该内容

16 篇文章

订阅专栏

本文深入探讨了Hadoop和Spark两大大数据处理框架的核心概念与技术。Hadoop由HDFS和MapReduce组成，用于分布式存储与计算；Spark则提供基于内存的高效数据处理能力，作为MapReduce的替代方案。文章提供了环境搭建指南、测试代码示例及进一步学习资源。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Hadoop

基本概念

Hadoop = HDFS + MapReduce. 大数据框架
HDFS : 分布式文件系统
MapReduce：大数据计算模型
NameNode：主节点；DataNode: 数据节点；SecondaryNameNode:备份
yarn：资源调度
- ResourceManager: 负责集群中所有资源的统一管理和分配
- NodeManager：管路Hadoop集群中单个计算节点

环境搭建

测试

map.py

import sys


def read_input(file):
    for line in file:
        yield line.split()


def main():
    data = read_input(sys.stdin)

    for words in data:
        for word in words:
            print("%s%s%d" % (word, "\t", 1))


if __name__ == '__main__':
    main()

reduce.py

import sys

from operator import itemgetter
from itertools import groupby


def read_map_out(file, sep='\t'):
    for line in file:
        yield line.rstrip().split(sep)


def main():
    data = read_map_out(sys.stdin)

    for cur_word, group in groupby(data, itemgetter(0)):
        tot_count = sum(int(count) for cur_word, count in group)
        print("%s%s%d"%(cur_word, "\t", tot_count))


if __name__ == '__main__':
    main()

本地测试echo "a b d e a v b" | python3 map.py | sort | python3 reduce.py
hdfs测试/usr/local/Cellar/hadoop/3.1.2/bin/hadoop jar /usr/local/Cellar/hadoop/3.1.2/libexec/share/hadoop/tools/lib/hadoop-streaming-3.1.2.jar -files "map.py,reduce.py" -input /kms.sh -output /output1 -mapper "/usr/local/bin/python3 map.py" -reducer "/usr/local/bin/python3 reduce.py"