Hadoop_DataNode_代码分析（3）

最新推荐文章于 2024-08-25 03:51:54 发布

原创最新推荐文章于 2024-08-25 03:51:54 发布 · 670 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#代码分析 #hadoop #socket #工作

Hadoop源码分析专栏收录该内容

15 篇文章

订阅专栏

本文深入分析了DataNode在数据块接收与发送过程中的动态行为，重点介绍了DataXceiverServer与DataXceiver的工作原理及其实现方式，包括BlockSender与BlockReceiver的辅助作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

通过上面的一系列介绍，我们知道了DataNode工作时的文件结构和文件结构在内存中的对应对象。下面我们可以来开始分析DataNode上的动态行为。首先我们来分析DataXceiverServer和DataXceiver。DataNode上数据块的接受/发送并没有采用我们前面介绍的RPC机制，原因很简单，RPC是一个命令式的接口，而DataNode处理数据部分，往往是一种流式机制。DataXceiverServer和DataXceiver就是这个机制的实现。其中，DataXceiver还依赖于两个辅助类：BlockSender和BlockReceiver。

DataXceiverServer很简单，它打开一个端口，然后每接收到一个连接，就创建一个DataXceiver，服务于该连接，DataXceiver是一个线程读一次操作请求进行操作之后就返回，并记录该连接的socket，对应的实现在DataXceiverServer的run方法里。当系统关闭时，DataXceiverServer将关闭监听的socket和所有DataXceiver的socket，这样就导致了DataXceiver出错并结束线程。DataXceiverServer接受到的数据主要有操作码+操作数据+用户名。

（1）BlockSender用来发送block数据，返回给用户的是：成功与否+校验类型+实际offset（因为校验块的原因和用户请求的offset不一致）。BlockSender有配置参数corruptChecksumOk（校验数据读入出错忽略，出错用零填充），chunkOffsetOK（是否要告知实际的offset，如上所述），verifyChecksum（是否要求在把校验数据和实际数据读入包缓存中时校验数据，也就是在发送之前），向客户端传包的时候第一、二个参数为true，第三为false，为的是尽快发送数据。而用来校验已有数据时使用第一二参数为false，第三参数为true，为了及时发现错误数据。readBlock完成实际读数据的操作，比较简单。sendChunks方法中，对于客户端传包的包只有校验和而实际数据通过管道传输，具体见函数。

（2）SocketIOWithTimeout，被其他类继承完成超时非阻塞socket，真正的读写操作由子类控制，故设置抽象方法performIO，使用SelectorPool类来完成高效selector的新建和重用，子类只需要告诉他要注册的channel和需要select的操作。