hadoop源码解读

最新推荐文章于 2025-11-14 16:36:45 发布

原创

最新推荐文章于 2025-11-14 16:36:45 发布 · 1.4k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop #大数据 #分布式

一、hadoop rpc总结

1、RPC指的是不同进程的方法调用，分为客户端和服务端，客户端调用服务端的方法，方法的执行在服务端。

2、如何实现Hadoop RPC的调用，必须要实现协议，这个协议其实就是一个接口，但是这个接口必须要有一个重要的特征，里面必须有VersionID.

3、RPC的服务端必须实现这些协议（接口）。

4、如何构建RPV的调用。

服务端：（构建者模式）

Server server = new RPC.Builder(new Configuration())

   			 .setBindAddress("localhost")

			 .setPort(9999)

			.setProtocol(ClientProtocol.class)

			.setInstance(new NameNodeRpcServer())

			.build();

	客户端：获取代理以及各种参数

	ClientProtocol namenode = RPC.getProxy(ClientProtocol.class, 1234L,

                new InetSocketAddress("localhost",9999),

                new Configuration());

Hadoop源码中有两种RPC，一种Hadoop RPC,另一种是HttpServer RPC,有什么区别？

应对的数据量不同，如果传输的数据量比较大，比如读写日志,用httpserver rpc,数据量比较小时，就是RPC之间的调用，用Hadoop RPC.

二、源码流程解读启动

NameNode启动流程：

在createNameNode方法中通过不同的场景switch …… case进入（format,rollBack,checkPoint,recover）默认进入实例化 NameNode(new NameNode)

默认进入实例化NameNode（new NameNode）-> initialize(conf)初始化方法。