hdfs源码解析之客户端写数据（一）

最新推荐文章于 2024-02-23 16:34:58 发布

请叫我小帅哥

最新推荐文章于 2024-02-23 16:34:58 发布

阅读量624

点赞数

分类专栏： hadoop

本文链接：https://blog.youkuaiyun.com/qq_39548286/article/details/88365815

版权

hadoop 专栏收录该内容

2 篇文章

订阅专栏

终于开始了这个很感兴趣但是一直觉得困难重重的源码解析工作，也算是一个好的开端。既然开始了，就认真耐心的看下去吧。废话不多说，开始！

在我们客户端写数据的代码大致如下：

Configuration conf = new Configuration（）；

conf.set("fs.defaultFS","hdfs://172.16.40.119:8020");

String a = "This is my first hdfs file!";
//① 得到DistributedFileSystem
FileSystem filesytem = FileSystem.get(conf);   
//② 得到输出流FSDataOutputStream
FSDataOutputStream fs = filesytem.create(new Path("/a.txt"),true); 
//③ 开始写数据
fs.write(a.getBytes());

fs.flush();

最重要的三步已经在上面标注，通过源码分析每一步所发生的细节是什么？

FileSystem filesytem = FileSystem.get(conf);

其中conf是一个Configuration对象。执行这行代码后就进入到FileSystem.get(Configuration conf)方法中，可以看到，在这个方法中先通过getDefaultUri()方法获取文件系统对应的的URI，该URI保存了与文件系统对应的协议和授权信息，如：hdfs://localhost:9000。这个URI又是如何得到的呢？是在CLASSPATH中的配置文件中取得的，看getDefaultUri()方法中有conf.get(FS_DEFAULT_NAME_KEY, "file:///") 这么一个实参，在笔者项目的CLASSPATH中的core-site.xml文件中有这么一个配置：

	<property>
		<name>fs.default.name</name>
		<value>hdfs://localhost:9000</value>
	</property>
	<property>

而常量FS_DEFAULT_NAME_KEY对应的值是fs.default.name，所以conf.get(FS_DEFAULT_NAME_KEY, "file:///")得到的值是hdfs://localhost:9000。
URI创建完成之后就进入到FileSystem.get(URI uri, Configuration conf)方法。在这个方法中，先执行一些检查，检查URI的协议和授权信息是否为空，然后再直接或简介调用该方法，最重要的是执行

    String disableCacheName = String.format("fs.%s.impl.disable.cache", scheme);
    if (conf.getBoolean(disableCacheName, false)) {//是否使用被Cache的文件系统
      return createFileSystem(uri, conf);
    }
 
    return CACHE.get(uri, conf);

常量CACHE用于缓存已经打开的、可共享的文件系统，它是FileSystem类的静态内部类FileSystem.Cache的对象，在其内部使用一个Map存储文件系统

private final Map<Key, FileSystem> map = new HashMap<Key, FileSystem>();

这个键值对映射的键是FileSystem.Cache.Key类型，它有三个成员变量：

/**URI模式**/
final String scheme;
/**URI的授权部分**/
final String authority;
/**保存了打开具体文件系统的本地用户信息，不同本地用户打开的具体文件系统也是不能共享的**/
final UserGroupInformation ugi;

由于FileSystem.Cache表示可共享的文件系统，所以这个Key就用于区别不同的文件系统对象，如一个一个文件系统对象可共享，那么FileSystem.Cache.Key的三个成员变量相等，在这个类中重写了hashCode()方法和equals()方法，就是用于判断这三个变量是否相等。根据《Hadoop技术内幕：深入解析Hadoop Common和HDFS架构设计与实现原理》这本书的介绍，在Hadoop1.0版本中FileSystem.Cache.Key类还有一个unique字段，这个字段表示，如果其他3个字段相等的情况，下如果用户不想共享这个文件系统，就设置这个值（默认为0），但是不知道现在为什么去除了，还没搞清楚，有哪位同学知道的话麻烦告知，谢谢。
回到FileSystem.get(final URI uri, final Configuration conf)方法的最后一行语句return CACHE.get(uri, conf)，调用了FileSystem.Cahce.get()方法获取具体的文件系统对象，该方法代码如下：

    FileSystem get(URI uri, Configuration conf) throws IOException{
      Key key = new Key(uri, conf);
      FileSystem fs = null;
      synchronized (this) {
        fs = map.get(key);
      }
      if (fs != null) {
        return fs;
      }
      
      fs = createFileSystem(uri, conf);
      synchronized (this) {  // refetch the lock again
        FileSystem oldfs = map.get(key);
        if (oldfs != null) { // a file system is created while lock is releasing
          fs.close(); // close the new file system
          return oldfs;  // return the old file system
        }
 
        // now insert the new file system into the map
        if (map.isEmpty() && !clientFinalizer.isAlive()) {
          Runtime.getRuntime().addShutdownHook(clientFinalizer);
        }
        fs.key = key;
        map.put(key, fs);
        return fs;
      }
    }

在这个方法中先查看已经map中是否已经缓存了要获取的文件系统对象，如果已经有了，直接从集合中去除，如果没有才进行创建，由于FileSystem.CACHE为static类型，所以在同一时刻可能有多个线程在访问，所以需要在Cache类的方法中使用同步的操作来取值和设置值。这个方法比较简单，最核心的就是

      fs = createFileSystem(uri, conf);

这行语句，它执行了具体的文件系统对象的创建的功能。createFileSystem()方法是FileSystem的一个私有方法，其代码如下：

private static FileSystem createFileSystem(URI uri, Configuration conf
      ) throws IOException {
    Class<?> clazz = conf.getClass("fs." + uri.getScheme() + ".impl", null);
    LOG.debug("Creating filesystem for " + uri);
    if (clazz == null) {
      throw new IOException("No FileSystem for scheme: " + uri.getScheme());
    }
    FileSystem fs = (FileSystem)ReflectionUtils.newInstance(clazz, conf);
    fs.initialize(uri, conf);
    return fs;
  }

其实现就是先从配置文件取得URI对应的类，如在core-default.xml文件中属性（键）fs.hdfs.impl对应的值是org.apache.hadoop.hdfs.DistributedFileSystem，相应的XML代码如下：

<property>
  <name>fs.hdfs.impl</name>
  <value>org.apache.hadoop.hdfs.DistributedFileSystem</value>
  <description>The FileSystem for hdfs: uris.</description>
</property>

所以若uri对应fs.hdfs.impl，那么createFileSystem中的clazz就是org.apache.hadoop.hdfs.DistributedFileSystem的Class对象。然后再利用反射，创建org.apache.hadoop.hdfs.DistributedFileSystem的对象fs。然后执行fs.initialize(uri, conf);初始化fs对象。DistributedFileSystem是Hadoop分布式文件系统的实现类，实现了Hadoop文件系统的界面，提供了处理HDFS文件和目录的相关事务。