告诉你Hadoop是什么


Hadoop是什么?Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算.

Hadoop框架中最核心设计就是:HDFS和MapReduce.HDFS提供了海量数据的存储,MapReduce提供了对数据的计算.

数据在Hadoop中处理的流程可以简单的按照下图来理解:数据通过Haddop的集群处理后得到结果.

HDFS:Hadoop Distributed File System,Hadoop的分布式文件系统.
大文件被分成默认64M一块的数据块分布存储在集群机器中.

如下图中的文件 data1被分成3块,这3块以冗余镜像的方式分布在不同的机器中.

MapReduce:Hadoop为每一个input split创建一个task调用Map计算,在此task中依次处理此split中的一个个记录(record),map会将结果以key--value的形式输出,hadoop负责按key值将map的输出整理后作为Reduce的输入,Reduce Task的输出为整个job的输出,保存在HDFS上.

Hadoop的集群主要由 NameNode,DataNode,Secondary NameNode,JobTracker,TaskTracker组成.

如下图所示:

NameNode中记录了文件是如何被拆分成block以及这些block都存储到了那些DateNode节点.

NameNode同时保存了文件系统运行的状态信息. 

DataNode中存储的是被拆分的blocks.

Secondary NameNode帮助NameNode收集文件系统运行的状态信息.

JobTracker当有任务提交到Hadoop集群的时候负责Job的运行,负责调度多个TaskTracker.

TaskTracker负责某一个map或者reduce任务.

【编辑推荐】

【责任编辑: 黄丹 TEL:(010)68476606】

### wget 下载 Hadoop 过程中频繁中断的原因 wget 下载过程中频繁中断可能由多种因素引起。网络连接不稳定是最常见的原因,这可能是由于本地网络状况不佳或是远程服务器的稳定性问题所致[^1]。 另一个常见原因是防火墙或代理设置不当。某些企业或教育机构内部网络可能存在严格的流量控制策略,这些策略可能导致长时间的数据传输被切断。此外,部分网站为了防止滥用资源,会对同一 IP 的连续请求做出限流甚至断开连接的操作[^2]。 最后,wget 默认配置下的重试机制不够完善也可能造成下载失败。默认情况下,wget 可能不会无限次尝试恢复已断开的连接,从而导致下载无法完成[^3]。 ### 解决方案 #### 使用更稳定的镜像源 选择一个稳定可靠的镜像站点可以有效减少因远端服务波动造成的下载中断情况。许多开源项目都有多个官方推荐的全球分布式的镜像地址可供选择: ```bash wget http://mirror.bit.edu.cn/apache/hadoop/common/stable/hadoop-3.3.4.tar.gz ``` #### 设置合理的超时与重试参数 通过调整 wget 参数来增强其应对不稳网络的能力是一个有效的办法。具体来说,可以通过增加 `--tries` 和 `--timeout` 参数让程序具备更强健的行为模式: ```bash wget --tries=0 --timeout=60 \ http://archive.apache.org/dist/hadoop/core/stable/hadoop-3.3.4.tar.gz ``` 这里 `-tries=0` 表示不限制最大重试次数;`-timeout=60` 则指定了每次等待响应的最大秒数为 60 秒。 #### 启用续传功能 对于大型文件而言,在遇到临时性的网络故障时不希望从头开始重新获取全部内容。启用续传选项可以让 wget 支持从中断处继续未完成的任务: ```bash wget -c http://apache.mirror.tw/hadoop/common/stable/hadoop-3.3.4.tar.gz ``` 这里的 `-c` 或者 `--continue` 告诉 wget 如果目标文件已经存在于本地,则仅需补充缺失的部分即可。 #### 检查并优化本地网络环境 确保路由器/交换机工作正常,并且确认没有任何不必要的安全设备阻止了正常的 HTTP(S) 请求。必要时联系网络管理员协助排查潜在的问题所在。 #### 替代工具 aria2 考虑到 wget 功能相对简单有限,有时候采用更为专业的多线程下载管理器如 Aria2 来代替也是一个不错的选择。Aria2 不仅有更好的错误处理能力,还支持分片并发加速下载速度: ```bash aria2c -x 16 -s 16 https://downloads.apache.org/hadoop/common/stable/hadoop-3.3.4.tar.gz ``` 这段命令中的 `-x` 控制同时打开的最大外部连接数量,而 `-s` 定义分割成多少个片段进行下载。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值