
Hadoop
文章平均质量分 89
欢迎来到我们的 Hadoop 专栏!在这里,我们将深入探索 Hadoop 这一开源分布式计算框架,帮助您理解它的核心概念和实际应用。
Hadoop 是处理大规模数据集的强大工具,基于分布式计算模型。它由两个主要组件组成:Hadoop 分布式文件系统 (HDFS) 和 MapReduce。这些组件共
Data 317
大数据领域优质创作者
展开
-
Hadoop三大组件之YARN(一)
YARN(Yet Another Resource Negotiator)是Hadoop生态系统中的一个重要组成部分,主要用于资源管理和调度。原创 2024-09-28 16:32:07 · 12218 阅读 · 0 评论 -
Hadoop三大组件之MapReduce(二)
在HDFS(Hadoop Distributed File System)中,数据块是物理上将数据分成一块块的单位,是HDFS存储数据的基本单位。数据切片是在逻辑上对输入数据进行分块,它并不代表在磁盘上的物理切分。数据切片是MapReduce程序计算输入数据的单位,每个切片会对应启动一个MapTask。环形缓冲区是为了解决数据传输和处理效率而设计的,它在Map和Reduce阶段之间扮演着至关重要的角色。是MapReduce中默认的输入格式,负责将输入数据划分为切片。默认情况下,切片大小等于Block大小。原创 2024-09-28 14:28:40 · 11854 阅读 · 0 评论 -
Hadoop三大组件之MapReduce(一)
MapReduce是一个分布式运算程序的编程框架,旨在帮助用户开发基于Hadoop的数据分析应用。它的核心功能是将用户编写的业务逻辑代码与自带的默认组件整合,形成一个完整的分布式运算程序,并并发运行在一个Hadoop集群上。原创 2024-09-28 14:28:14 · 12040 阅读 · 0 评论 -
Hadoop三大组件之HDFS(二)
Hadoop 分布式文件系统 (HDFS) 提供了灵活且高效的文件管理方式,类似于 Linux 文件系统。本文将介绍常用的 HDFS 操作命令,帮助您更好地掌握 HDFS 的基本操作。会在 /user/username 目录下创建一个名为 myfolder 的新目录。选项可以使 Hadoop 递归地检查该文件夹中的所有文件和子文件夹并将其一并删除。选项,Hadoop 将不会删除文件夹(即使文件夹为空),因为。HDFS 的目录结构与 Linux 类似,顶层目录为。只处理单个文件的删除,与Linux略有不同。原创 2024-09-26 21:02:39 · 12541 阅读 · 0 评论 -
Hadoop三大组件之HDFS(一)
HDFS(Hadoop Distributed File System)采用主从架构,由一个NameNode(主节点)和多个DataNode(从节点)组成。NameNode负责管理数据块映射信息(如文件名、文件目录、权限、块位置等)并配置副本策略,而DataNode负责存储实际的数据块。定期从NameNode获取fsimage和edits文件,合并生成新的fsimage文件,发送回NameNode,以减小edits文件大小,防止NameNode重启时加载过多日志。较大文件块减少寻址时间,提高传输效率。原创 2024-09-20 23:54:36 · 11834 阅读 · 0 评论 -
Hadoop生态圈内容(一)
HDFS是一个高容错、高可靠性、高可扩展性、高吞吐率的分布式文件存储系统,负责海量数据的存储。原创 2024-09-11 23:03:14 · 12800 阅读 · 0 评论 -
Hadoop 大数据基础篇(零)
Hadoop是一个分布式计算平台,能够允许使用编程模型在集群上对大型数据集进行分布式处理,主要解决海量数据的存储和海量数据的分析计算 问题。HDFS(分布式文件存储平台):用于存储大规模数据。MapReduce(计算引擎):用于数据的并行处理。YARN(资源调度平台):用于资源管理和任务调度。以上是对Hadoop基础知识的简要介绍。Hadoop作为大数据处理的核心技术之一,其高扩展性、低成本和高效率使其在大数据领域得到了广泛应用。原创 2024-09-10 12:57:55 · 11904 阅读 · 0 评论 -
Hadoop生态圈内容(二)
Combiner是在Map阶段之后,Reduce阶段之前,对Map输出的中间数据进行本地合并和压缩,减少数据传输量,提高整体性能。Combiner可以将相同Key的多个Map输出结果进行合并,减少网络传输的数据量,降低Reduce的负载,提高效率。Hadoop的块默认大小是128MB。在Hadoop 1.x和2.x版本中默认为64MB。则是将字节流重新转换成数据的过程,以便在各个节点之间传输时恢复原始数据。是将数据转换为字节流的过程,以便在网络传输或存储时占用更少的空间。原创 2024-09-11 23:04:58 · 12113 阅读 · 0 评论