大数据~DataNode详解&MapReduce 概述

最新推荐文章于 2025-04-24 23:07:26 发布

原创

最新推荐文章于 2025-04-24 23:07:26 发布 · 613 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #hadoop

本文详细介绍Hadoop集群中DataNode的工作机制，包括数据完整性的维护、心跳参数配置、新旧节点的服役与退役流程，以及多目录配置方法。探讨HDFS2.X的新特性，如集群间数据拷贝和小文件存档解决方案。此外，还涵盖了MapReduce的优点与核心思想，以及Hadoop序列化的关键特点。

文章目录

DataNode 详解

DataNode 详解

DataNode----是存储数据块元数据

一 DataNode 工作机制

killall java 删除java 全部进程

在这里插入图片描述

如上图什么是数据校验和?

数据完整性

思考：如果电脑磁盘里面存储的数据是控制高铁信号灯的红灯信号（1）和绿灯信号（0），但是存储该数据的磁盘坏了，一直显示是绿灯，是否很危险？同理DataNode节点上的数据损坏了，却没有发现，是否也很危险，那么如何解决呢？

如下是DataNode节点保证数据完整性的方法。

1）当DataNode读取Block的时候，它会计算CheckSum。

2）如果计算后的CheckSum，与Block创建时值不一样，说明Block已经损坏。

3）Client读取其他DataNode上的Block。

4）DataNode在其文件创建后周期验证CheckSum，如下图所示

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Wvn8EyYQ-1595565343682)(C:\Users\v_xjzxu\AppData\Roaming\Typora\typora-user-images\1595404867332.png)]

掉线时限参数设置

在这里插入图片描述

需要注意的是 hdfs-site.xml 配置文件中的heartbeat.recheck.interval的单位为毫秒，dfs.heartbeat.interval的单位为秒
    
    
<property>
    <name>dfs.namenode.heartbeat.recheck-interval</name>
    <value>300000</value>
</property>
<property>
    <name>dfs.heartbeat.interval</name>
    <value>3</value>
</property>