Spark RPC

最新推荐文章于 2025-12-28 09:54:42 发布

翻译最新推荐文章于 2025-12-28 09:54:42 发布 · 978 阅读

文章标签：

#spark #RPC

spark 专栏收录该内容

57 篇文章

订阅专栏

本文详细介绍了Spark1.6版本中引入的新型RPC通信机制，包括核心组件RpcEnv、RPCEndpoint及RPCEndpointRef的功能与工作原理，并深入探讨了这些组件如何在Akka的基础上提供更高级别的RPC实现。

一：Spark 1.6RPC解析

1，Spark 1.6推出RpcEnv，RPCEndpoint，PRCEndpointRef为核心的新型架构下的RPC通信方式，就目前的实现而言，其底层依旧是Akka；

2，Akka是基于Actor的分布式消息通信系统，而在Spark 1.6中封装了Akka，提供更高层的Rpc实现，目的是移除对Akka的依赖，为了扩展和自定义Rpc打下基础；

二：RPCEnv解析

1，RpcEnv是RPC的环境（相当于Akka中的ActorSystem），所有的RpcEndpoint都需要注册到RpcEnv实例对象中（注册的时候会指定注册的名称，这样客户端就可以通过名称查询到RpcEndpoint的Ref的引用，进而进行通信），在RpcEndpoint接收到消息后会receive方法进行处理；
这里写图片描述
2，RpcEndpoint如果接收到需要reply的消息的话就会交给自己的receiveAndReply来处理（回复时候是通过RpcCallContext中的reply方法来回复发送者的），如果不需要reply的话就交给receive方法来处理；

3，RpcEnvFactory是负责创建RpcEnv的，通过create方法创建RpcEnv实例对象，默认是用的Netty：

private def getRpcEnvFactory(conf: SparkConf): RpcEnvFactory = {
  val rpcEnvNames = Map(
    "akka" -> "org.apache.spark.rpc.akka.AkkaRpcEnvFactory",
    "netty" -> "org.apache.spark.rpc.netty.NettyRpcEnvFactory")
  val rpcEnvName = conf.get("spark.rpc", "netty")
  val rpcEnvFactoryClassName = rpcEnvNames.getOrElse(rpcEnvName.toLowerCase, rpcEnvName)
  Utils.classForName(rpcEnvFactoryClassName).newInstance().asInstanceOf[RpcEnvFactory]
}