hadoop_DataNode实现原理分析(0.20版本)

最新推荐文章于 2023-08-28 13:40:13 发布

原创

最新推荐文章于 2023-08-28 13:40:13 发布 · 1.7k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文详细解析了Hadoop DataNode的启动过程，包括从数据目录获取、服务器名称确定、NameNode连接、数据目录状态分析、DataXceiverServer、InfoServer和RPCServer的启动，以及DataBlockScanner的工作原理。同时，介绍了DataNode如何存储和管理Block，包括文件和内存结构、Block文件格式以及DataXceiverServer的数据接收流程。文章还涵盖了DataNode的定期扫描、安全流程和核心逻辑。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

DataNode启动过程：

1. 从dfs.data.dir得到DataNode存储数据的目录

2. 得到dataNode服务器名称：从配置slave.host.name读取，如果没有，则尝试根据DNS读取，hadoop环境中机器识别以及网络拓扑结构组建请参见前面介绍NameNode的文章

3. 从config中得到NameNode地址，建立RPC连接，从NameNode处拿到版本号，和自己的版本号对比，如果不同，则说明NameNode和DataNode的hadoop jar包版本不同，不能使用，启动失败

4. 分析dataNode上每个dataDir的状态

a) 如判定文件夹是否存在，是否可读可写

b) 根据启动状态判定是否合法，如Formate时文件夹是否存在，Import时是否需要做数据升级等，其判断逻辑和NameNode一样，因为NameNode和DataNode存储数据到文件夹的操作都是storage类

5. 在端口dfs.datanode.address启动DataXceiverServer，用来和Client或DataNode之间传输block数据，配置dfs.datanode.max.xcievers控制DataNode同时建立的连接数，默认256，配置dfs.block.size默认的block大小，默认64M

6. 在端口dfs.datanode.http.address启动InfoServer

7. 在端口dfs.datanode.ipc.address启动RPCServer

8. 根据dfs.datanode.scan.period.hours配置的扫描间隔时间启动DataBlockScanner

9. 主线程中：

a) 检测升级过程

b) 定时和NameNod发送心跳包通信，从NameNode处拿回操作，如DNA_TRANSFER，DNA_INVALIDATE，DNA_SHUTDOWN等

i. DNA_TRANSFER：传输block数据到其他DataNode，首先验证要传输的block是否有效，如果无效则会告知NameNode做相应处理，然后启动DataTransfer线程传输数据到指定DataNode，按照block传输逻辑做相应处理。

ii. DNA_INVALIDATE：block无效(如block备份数过大，需要删除一些备份)，将要删除的Block加到DataBlockScanner中，按照扫描逻辑做相应处理。

&

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄19年

6
原创

0
点赞

1
收藏

2
粉丝

关注

私信

热门文章

上一篇：: hadoop-NameNode篇(基于0.20版本)

最新评论

java、php、python的开发效率对比
彭世瑜: 没必要这么比，如果都调用封装好的库，都可以用很少的代码实现
java、php、python的开发效率对比
从小白到小黑: 只有我觉得看着java代码就是比你下面写的来各种js看着舒服？哈哈哈
java、php、python的开发效率对比
angelz: 这种比较根本没意义,写PHP代码的一看就是个菜鸟!要比行数,PHP15行也可以. <?php $id="test"; $secure_key="123456"; $api_url="http://xxxxx?id=".$id; $scan_parm="{\"scanlist\":[{\"sid\":\"123\", \"url\":\"http://dl.test.com/test.apk\", \"md5\":\"3d41f29d762ec547bfa4b42f57f3dc7c\"}]}"; $authkey=md5($scan_parm.$id.$secure_key); $post="authkey=".$authkey."&request=".$scan_parm; $ch = curl_init($api_url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); curl_setopt($ch, CURLOPT_POST,true); curl_setopt($ch, CURLOPT_POSTFIELDS, $post); echo $content = curl_exec($ch); curl_close($ch); ?>

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。