linux sync flush 区别,FsDataOutputStream 之 hflush和hsync的区别

最新推荐文章于 2025-10-10 11:03:42 发布

转载最新推荐文章于 2025-10-10 11:03:42 发布 · 893 阅读

文章标签：

本文深入探讨了Linux中sync、fsync、fdatasync的区别，并结合Hadoop 2.8.0源码分析了FsDataOutputStream的hflush和hsync操作。hflush类似于sync，仅将数据移动到OS缓存，不等待磁盘写入；而hsync则更接近fsync，不仅等待数据写入磁盘，还确保文件元数据同步。HDFS中，hflush不更新NameNode的文件元信息，而hsync通过强制flush数据并更新长度，更接近于全盘同步。

本文是基于hadoop-2.8.0的源码实现

1. linux上的sync, fsync, fdatasync的区别

sync会将输出流缓冲区数据排入到OS维护的写磁盘对列，而不会等在磁盘操作完成，因此sync调用返回后数据依然有可能会丢失。

fsync和sync不同的是它会等待写磁盘操作完成，同时它还会修改文件meta信息。因此fsync往往对应两次磁盘IO：一次写数据到磁盘，一次修改文件meta信息到磁盘。

fdatasync 和fsync一样等到磁盘操作完成，但是它不会修改文件的meta信息。

2 FsDataOutputStream hflush和hsync

回到hdfs的hflush和hsync，文件的meta信息存放在namenode上，文件的data信息存放在datanode上。

client调用hflush和hsync流程都是一样的，首先这里再次说明一下write的流程：

client端：

输出流底层会缓冲数据，缓冲到一定大小后flush到datanode，这个缓冲区是一个block。

写到block的数据又被切分成一个个packet，发送block的时候是一个个packet发送，发送完packet后会将packer移到等待确认对列中，然后等待datanode的确认。

datanode端：

写数据采用pipeline机制，比如数据需要在3个datanode(dn1, dn2, dn3)上备份，那么dn1收到 client端的packet后，写packet到dn2，然后将packet写到本地磁盘并flush， dn2如法炮制写dn3并写本地。

确认：

dn3是pipeline中最后的datanode， dn3写完后发送对packet的ack到dn2， dn2发送ack到dn1，

dn1 发送ack到client。client收到packet的确认后将packet从确认对列移除。

下面比较两者的区别

下面是FsDataoutputStream中hflush和hsync的实现:

@Override // Syncable

public void hflush() throws IOException {

if (wrappedStream instanceof Syncable) {

((Syncable)wrappedStream).hflush();

} else {

wrappedStream.flush();

}

@Override // Syncable

public void hsync() throws IOException {

if (wrappedStream instanceof Syncable) {

((Syncable)wrappedStream).hsync();

} else {

wrappedStream.flush();

}

-----------------------------------------------------

调用的是wrappedStream的hflush和hsync，此处wrappedStream只讨论是DFSOutputStream的情况，下面是DFSOutputStream的hflush和hsync：

@Override

public void hflush() throws IOException {

try (TraceScope ignored = dfsClient.newPathTraceScope("hflush", src)) {

flushOrSync(false, EnumSet.noneOf(SyncFlag.class));

}

@Override

public void hsync() throws IOException {

try (TraceScope ignored = dfsClient.newPathTraceScope("hsync", src)) {

flushOrSync(true, EnumSet.noneOf(SyncFlag.class));

}

调用的都是flushOrSync，第一个参数的不同最终被导致了datanode端写数据处理方式的不同，不深挖代码了，后面的代码跟hdfs写数据流程重合，如果有空的化还会记录一下hdfs写数据过程。

hflush

上面简要的写流程可以看出，关键是datanode的收到packet后的flush。 client端调用FsDataoutputStream # hflush，在datanode上实际上调用的是OutputStream # flush, 从jdk关于flush的解释可以知道，flush类似linux的sync操作，只是将文件输出流缓冲的的数据移动到os的写磁盘缓冲区，并不会等待写磁盘操作完成。

hsync

和hflush的不同只在与datanode write packet后不是调用flush，而是调用下面一段代码：

public void syncDataOut() throws IOException {

if (dataOut instanceof FileOutputStream) {

((FileOutputStream)dataOut).getChannel().force(true);

}

dataOut是本地文件输出流。force(true)的语义保证会等待数据写到磁盘，指定参数true还会是的刷新datanode上dataOut输出流对应文件的meta信息。

所以hsync类似linux上的fsync调用。

但是hdfs上文件的meta信息保存在namenode上，无论是hflush还是hsync都没有更改namenode的文件meta信息，主要是length信息。这和DFSoutputStream中hflush和hsync调用的flushOrSync参数有关，其第二个参数都被设置成

EnumSet.noneOf(SyncFlag.class);

实际上SyncFlag枚举了两个值如下：

public enum SyncFlag {