Hadoop_Data 317的博客-优快云博客

Hadoop

关注

文章平均质量分 89

欢迎来到我们的 Hadoop 专栏！在这里，我们将深入探索 Hadoop 这一开源分布式计算框架，帮助您理解它的核心概念和实际应用。 Hadoop 是处理大规模数据集的强大工具，基于分布式计算模型。它由两个主要组件组成：Hadoop 分布式文件系统 (HDFS) 和 MapReduce。这些组件共

关注数：文章数：8 文章阅读量：97303 文章收藏量：89

作者: Data 317

大数据领域优质创作者

展开

Hadoop三大组件之YARN（一）

YARN（Yet Another Resource Negotiator）是Hadoop生态系统中的一个重要组成部分，主要用于资源管理和调度。

原创 2024-09-28 16:32:07 · 12218 阅读 · 0 评论
Hadoop三大组件之MapReduce（二）

在HDFS（Hadoop Distributed File System）中，数据块是物理上将数据分成一块块的单位，是HDFS存储数据的基本单位。数据切片是在逻辑上对输入数据进行分块，它并不代表在磁盘上的物理切分。数据切片是MapReduce程序计算输入数据的单位，每个切片会对应启动一个MapTask。环形缓冲区是为了解决数据传输和处理效率而设计的，它在Map和Reduce阶段之间扮演着至关重要的角色。是MapReduce中默认的输入格式，负责将输入数据划分为切片。默认情况下，切片大小等于Block大小。

原创 2024-09-28 14:28:40 · 11854 阅读 · 0 评论
Hadoop三大组件之MapReduce（一）

MapReduce是一个分布式运算程序的编程框架，旨在帮助用户开发基于Hadoop的数据分析应用。它的核心功能是将用户编写的业务逻辑代码与自带的默认组件整合，形成一个完整的分布式运算程序，并并发运行在一个Hadoop集群上。

原创 2024-09-28 14:28:14 · 12040 阅读 · 0 评论
Hadoop三大组件之HDFS（二）

Hadoop 分布式文件系统 (HDFS) 提供了灵活且高效的文件管理方式，类似于 Linux 文件系统。本文将介绍常用的 HDFS 操作命令，帮助您更好地掌握 HDFS 的基本操作。会在 /user/username 目录下创建一个名为 myfolder 的新目录。选项可以使 Hadoop 递归地检查该文件夹中的所有文件和子文件夹并将其一并删除。选项，Hadoop 将不会删除文件夹（即使文件夹为空），因为。HDFS 的目录结构与 Linux 类似，顶层目录为。只处理单个文件的删除，与Linux略有不同。

原创 2024-09-26 21:02:39 · 12541 阅读 · 0 评论
Hadoop三大组件之HDFS（一）

HDFS（Hadoop Distributed File System）采用主从架构，由一个NameNode（主节点）和多个DataNode（从节点）组成。NameNode负责管理数据块映射信息（如文件名、文件目录、权限、块位置等）并配置副本策略，而DataNode负责存储实际的数据块。定期从NameNode获取fsimage和edits文件，合并生成新的fsimage文件，发送回NameNode，以减小edits文件大小，防止NameNode重启时加载过多日志。较大文件块减少寻址时间，提高传输效率。

原创 2024-09-20 23:54:36 · 11834 阅读 · 0 评论
Hadoop生态圈内容（一）

HDFS是一个高容错、高可靠性、高可扩展性、高吞吐率的分布式文件存储系统，负责海量数据的存储。

原创 2024-09-11 23:03:14 · 12800 阅读 · 0 评论
Hadoop 大数据基础篇（零）

Hadoop是一个分布式计算平台，能够允许使用编程模型在集群上对大型数据集进行分布式处理，主要解决海量数据的存储和海量数据的分析计算问题。HDFS（分布式文件存储平台）：用于存储大规模数据。MapReduce（计算引擎）：用于数据的并行处理。YARN（资源调度平台）：用于资源管理和任务调度。以上是对Hadoop基础知识的简要介绍。Hadoop作为大数据处理的核心技术之一，其高扩展性、低成本和高效率使其在大数据领域得到了广泛应用。

原创 2024-09-10 12:57:55 · 11904 阅读 · 0 评论
Hadoop生态圈内容（二）

Combiner是在Map阶段之后，Reduce阶段之前，对Map输出的中间数据进行本地合并和压缩，减少数据传输量，提高整体性能。Combiner可以将相同Key的多个Map输出结果进行合并，减少网络传输的数据量，降低Reduce的负载，提高效率。Hadoop的块默认大小是128MB。在Hadoop 1.x和2.x版本中默认为64MB。则是将字节流重新转换成数据的过程，以便在各个节点之间传输时恢复原始数据。是将数据转换为字节流的过程，以便在网络传输或存储时占用更少的空间。

原创 2024-09-11 23:04:58 · 12113 阅读 · 0 评论

Hadoop

作者: Data 317

Hadoop三大组件之YARN（一）

Hadoop三大组件之MapReduce（二）

Hadoop三大组件之MapReduce（一）

Hadoop三大组件之HDFS（二）

Hadoop三大组件之HDFS（一）

Hadoop生态圈内容（一）

Hadoop 大数据基础篇（零）

Hadoop生态圈内容（二）