在程序中指定Spark和Hadoop的用户

最新推荐文章于 2025-05-13 12:25:13 发布

原创

最新推荐文章于 2025-05-13 12:25:13 发布 · 1.5w 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#Spark #Hadoop #用户认证

本文介绍了如何在程序中指定Spark和Hadoop的用户，以解决因客户端和服务器端用户不一致导致的资源访问问题。Spark允许通过设置"user.name"系统属性来指定用户，而Hadoop在弱认证模式下，可通过环境变量或系统属性"HADOOP_USER_NAME"设定关联用户。文章提供了多个使用案例，展示了如何在不同场景下为用户程序设置正确的关联用户。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Spark和Hadoop都被设计为多用户共享使用，每个用户程序都关联一个用户，Spark和Hadoop根据该用户授予用户程序对集群相关资源的访问权限。如果是强认证方式，每个用户程序关联的用户不可随意指定，而至少需要提供必要的认证信息（如密码）；如果是弱认证方式，则可以在用户程序中指定关联用户，而不需要提供认证信息。Spark（0.8.0版本）使用的是弱认证方式，Hadoop可以配置使用强认证方式（Kerberos）或弱认证方式，在日常开发中基本上都是使用以弱认证方式运行的Hadoop。

Spark和Hadoop都是集群运行环境，用户程序要么在客户端独立运行并通过网络与集群中的服务通信，如从客户端访问HDFS，要么在客户端被打包然后上传到集群的结点运行，如提交MapReduce作业或请求Spark的Worker执行App任务。在日常开发工作中经常需要一方面在客户端运行用户程序直接操作HDFS上的文件，另一方面将并行计算任务提交到集群（Spark或MapReduce）执行。这里的关键差异是前一种情况的用户程序在客户端运行，而后一种情况的用户程序却是在服务器端运行。

Spark和Hadoop的SDK默认将用户程序运行所在系统的当前登录用户作为用户程序的关联用户。由于客户端和服务器的当前登录用户往往不一致，这容易造成在客户端运行的用户程序和在服务器端运行的用户程序不能互访各自在集群中的资源（如HDFS上的文件）。解决这个问题的合理方法是将在客户端和服务器端运行的两类用户程序所关联的用户指定为同一个用户。

为Spark的用户程序指定关联用户，可以使用系统属性"user.name"。

USE CASE 1 为在客户端运行的Spark App指定关联用户为"ARCH"，可以在程序向Master注册App之前设置系统属性。

System.setProperty("user.name", "ARCH");
JavaSparkContext sc = new JavaSparkContext(...);

在弱认证方式下，为Ha

最低0.47元/天解锁文章

200万优质内容无限畅学