
大数据
文章平均质量分 88
大数据笔记
沐七小殿下
比上不足,比下还不足
展开
-
MapReduce 详解及其在 Hadoop 中的优化策略
是一种强大的编程模型,用于处理和生成大规模数据集。它通过两个主要的操作步骤——和,来实现分布式计算。MapReduce 在处理海量数据的任务中表现出色,但为了最大限度地提升其效率,我们还需要针对其关键过程进行优化,尤其是在 Hadoop 框架中的应用。原创 2024-09-23 17:37:47 · 1114 阅读 · 0 评论 -
YARN:Hadoop 资源管理与调度框架
YARN 是 Hadoop 中的资源调度平台,负责为计算程序提供集群资源,可以看作是 Hadoop 分布式计算环境的操作系统。它使得多个应用程序能够同时运行,并且能够通过调度策略高效地分配资源,提升集群的利用率和吞吐量。YARN 的核心功能是将资源管理与任务调度分离,它通过全局的资源管理器,本地的任务执行管理器,以及为每个任务分配资源的来管理任务的运行和监控。YARN 是 Hadoop 生态系统中重要的资源管理和调度平台,它通过灵活的架构和多种调度策略,实现了对集群资源的高效管理。通过和。原创 2024-09-22 20:42:20 · 1323 阅读 · 0 评论 -
HDFS 笔记
HDFS是一个分布式文件系统,适用于大规模数据的存储和分析。它通过目录树来定位文件,特别适合“一次写入,多次读取”的数据场景。HDFS不支持文件的随机修改,因此更适合用作数据分析而非网盘应用。原创 2024-09-19 18:47:22 · 869 阅读 · 0 评论